中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

李飛飛高徒Andrej Karpathy提醒你,小心搭建神經(jīng)網(wǎng)絡(luò)的六個(gè)坑

2018-07-04    來源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬Linux鏡像隨意使用

繼Ian Goodfellow的推特小課堂之后,特斯拉的人工智能研究負(fù)責(zé)人、李飛飛斯坦福高徒Andrej Karpathy也在twitter上分享了他對(duì)神經(jīng)網(wǎng)絡(luò)的一些研究技巧。

昨晚,他連發(fā)幾條twitter,細(xì)數(shù)了六種神經(jīng)網(wǎng)絡(luò)研究中的常見錯(cuò)誤。引發(fā)了一波研究者們對(duì)于自己入過坑的吐槽。

 

 

來看一下Ian Goodfellow讓你當(dāng)心的這六個(gè)坑吧:

最常見的神經(jīng)網(wǎng)絡(luò)錯(cuò)誤:

• 沒有先試過所有數(shù)據(jù)一批處理

• 忘了為網(wǎng)絡(luò)切換訓(xùn)練/評(píng)估模式

• 忘了在.backward()之前.zero_grad()(在pytorch中)

• 將softmaxed輸出傳遞給預(yù)期原始logits的損失

• 使用BatchNorm時(shí),您沒有對(duì)線性/ 二維卷積層使用bias = False,或者反過來忘記將其包含在輸出層中。 這個(gè)倒不會(huì)讓你失敗,但它們是虛假的參數(shù)

• 以為view()和permute()是一樣的事情(不正確地使用view)

之后,在評(píng)論區(qū),也有讀者針對(duì)“對(duì)數(shù)據(jù)初始化”展開了討論。

對(duì)此,Ian也進(jìn)一步詳細(xì)解釋:

是的,有幾次我重新打開數(shù)據(jù),得到的損失值卻一致,而且如果這樣做會(huì)產(chǎn)生一個(gè)漂亮的損失曲線,這表明對(duì)數(shù)據(jù)初始化并不是明智的做法。我有時(shí)喜歡調(diào)整最后一層偏差,使之接近基礎(chǔ)分布。

我喜歡先從最簡(jiǎn)單的開始,例如,先對(duì)所有未處理的數(shù)據(jù)進(jìn)行訓(xùn)練,看看基本輸出分布的表現(xiàn)如何,然后逐增加輸入和擴(kuò)大網(wǎng)絡(luò),確保每次都比以前的表現(xiàn)更好。

標(biāo)簽: 網(wǎng)絡(luò)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:為什么你需要改進(jìn)訓(xùn)練數(shù)據(jù),如何改進(jìn)?

下一篇:Facebook承認(rèn)向61家公司提供用戶數(shù)據(jù)特殊訪問權(quán)限