李飛飛高徒Andrej Karpathy提醒你，小心搭建神經(jīng)網(wǎng)絡(luò)的六個(gè)坑

2018-07-04 來源：raincent

容器云強(qiáng)勢(shì)上線！快速搭建集群，上萬Linux鏡像隨意使用

繼Ian Goodfellow的推特小課堂之后，特斯拉的人工智能研究負(fù)責(zé)人、李飛飛斯坦福高徒Andrej Karpathy也在twitter上分享了他對(duì)神經(jīng)網(wǎng)絡(luò)的一些研究技巧。

昨晚，他連發(fā)幾條twitter，細(xì)數(shù)了六種神經(jīng)網(wǎng)絡(luò)研究中的常見錯(cuò)誤。引發(fā)了一波研究者們對(duì)于自己入過坑的吐槽。

來看一下Ian Goodfellow讓你當(dāng)心的這六個(gè)坑吧：

最常見的神經(jīng)網(wǎng)絡(luò)錯(cuò)誤：

• 沒有先試過所有數(shù)據(jù)一批處理

• 忘了為網(wǎng)絡(luò)切換訓(xùn)練/評(píng)估模式

• 忘了在.backward()之前.zero_grad()(在pytorch中)

• 將softmaxed輸出傳遞給預(yù)期原始logits的損失

• 使用BatchNorm時(shí)，您沒有對(duì)線性/ 二維卷積層使用bias = False，或者反過來忘記將其包含在輸出層中。這個(gè)倒不會(huì)讓你失敗，但它們是虛假的參數(shù)

• 以為view()和permute()是一樣的事情(不正確地使用view)

之后，在評(píng)論區(qū)，也有讀者針對(duì)“對(duì)數(shù)據(jù)初始化”展開了討論。

對(duì)此，Ian也進(jìn)一步詳細(xì)解釋：

是的，有幾次我重新打開數(shù)據(jù)，得到的損失值卻一致，而且如果這樣做會(huì)產(chǎn)生一個(gè)漂亮的損失曲線，這表明對(duì)數(shù)據(jù)初始化并不是明智的做法。我有時(shí)喜歡調(diào)整最后一層偏差，使之接近基礎(chǔ)分布。

我喜歡先從最簡(jiǎn)單的開始，例如，先對(duì)所有未處理的數(shù)據(jù)進(jìn)行訓(xùn)練，看看基本輸出分布的表現(xiàn)如何，然后逐增加輸入和擴(kuò)大網(wǎng)絡(luò)，確保每次都比以前的表現(xiàn)更好。

標(biāo)簽：網(wǎng)絡(luò)

版權(quán)申明：本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請(qǐng)聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)！
本站所提供的圖片等素材，版權(quán)歸原作者所有，如需使用，請(qǐng)與原作者聯(lián)系。

上一篇:為什么你需要改進(jìn)訓(xùn)練數(shù)據(jù)，如何改進(jìn)？

下一篇:Facebook承認(rèn)向61家公司提供用戶數(shù)據(jù)特殊訪問權(quán)限

相關(guān)文章

最新資訊

熱門推薦

為學(xué)習(xí)和知識(shí)分享目的，本站文章部分自網(wǎng)絡(luò)，本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請(qǐng)聯(lián)系：2653426586@qq.com QQ：2653426586

如有其他需求，請(qǐng)聯(lián)系：2653426586@qq.com QQ：2653426586

友情鏈接：網(wǎng)絡(luò)安全運(yùn)維經(jīng)驗(yàn) IT技術(shù)分享運(yùn)維隨筆錄鮮花東郊到家往約到家

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

李飛飛高徒Andrej Karpathy提醒你，小心搭建神經(jīng)網(wǎng)絡(luò)的六個(gè)坑

李飛飛高徒Andrej Karpathy提醒你，小心搭建神經(jīng)網(wǎng)絡(luò)的六個(gè)坑