中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

量化評估、算法拓展:強化學(xué)習(xí)研究的10大原則

2018-12-21    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

今年9月份舉辦的深度學(xué)習(xí)Indaba2018峰會的干貨確實不少,今天給大家整理一份關(guān)于強化學(xué)習(xí)的10個原則,不僅在強化學(xué)習(xí)中有用,在機器學(xué)習(xí)研究中也能夠提供一些參考。

這10個原則是一位來自Insight數(shù)據(jù)分析研究中心的博士生Sebastian Ruder在參會期間對David Silver報告進行的整理,除了Ruder自己的解析外,也把他自己拍的照片分享了出來。

評估推動進步

 

 

量化的評估才能推動進步。評估獎勵的選擇決定了進步的方向,要確保評估指標與目標密切相關(guān),避免主觀評價(例如人類學(xué)科)。還有一點,雙Q學(xué)習(xí)優(yōu)于單Q學(xué)習(xí),因為后者能減少偏見。

算法的可擴展性決定成功

 

 

算法如何擴展非常重要,要避免性能上限。深度學(xué)習(xí)非常棒,因為它可以有效地擴展,但是樣本效率同樣重要。

算法的可擴展性的表現(xiàn)取決于資源,而算法的可擴展性決定是否成功:那么給予更多資源,性能如何提高?值得一提的是,這里的資源指的是計算,內(nèi)存或數(shù)據(jù)。

通用性,即算法在其他任務(wù)上的表現(xiàn)非常重要

 

 

關(guān)鍵是要設(shè)計一系列具有挑戰(zhàn)性的任務(wù),即應(yīng)該對不同的新任務(wù)進行評估。避免過度使用當(dāng)前的任務(wù)。

相信Agent的經(jīng)驗

 

 

不要依賴人類的專業(yè)知識,不要依賴于工程特征。在數(shù)據(jù)有限時,領(lǐng)域?qū)I(yè)知識和歸納偏差非常重要。

一些任務(wù)可能看起來不太可能完成,但是,你確實能在其中學(xué)到很多經(jīng)驗。這種任務(wù)或者項目,通常滿足這三點:

1.很難接受RL的核心問題。

1.是AI的核心問題

3.非常值得你去努力

狀態(tài)應(yīng)該是主觀的

 

 

應(yīng)將狀態(tài)建立為模型的狀態(tài),即RNN的隱藏狀態(tài),而不是根據(jù)環(huán)境定義。只有agent對世界的主觀看法才是重要的。不要推理外部現(xiàn)實,因為達到的效果非常有限。

控制流

 

 

Agent影響數(shù)據(jù)流和體驗。Agent應(yīng)該有能夠訪問控制環(huán)境的功能。重點不僅在于最大化獎勵,還在于建立對流的控制。

價值函數(shù)塑造世界

 

 

價值函數(shù)有效地總結(jié)了當(dāng)前和未來的狀況。多值函數(shù)允許我們模擬世界的多個方面?梢詭椭刂屏。

從想象的經(jīng)驗(imagined experience)中學(xué)習(xí)

 

 

接下來該怎樣規(guī)劃?同樣的,RL算法可以從想象的經(jīng)驗(imagined experience)中學(xué)習(xí),如Alphago中使用MCTS和值函數(shù)。

利用函數(shù)逼近器

 

 

可以將算法復(fù)雜度揉進神經(jīng)網(wǎng)絡(luò)架構(gòu),甚至MCTS,分層控制等也可以用NN建模。然后要真正理解:我們從模型學(xué)到了什么。

學(xué)會學(xué)習(xí)

 

 

必須精通元學(xué)習(xí),然后,你可能不再需要手工設(shè)置網(wǎng)絡(luò)架構(gòu),一切都是端到端學(xué)習(xí)?偠灾,神經(jīng)網(wǎng)絡(luò)要通過盡可能少的人工干預(yù)來處理事情。但是,歸納偏差應(yīng)該仍然有用。

相關(guān)報道:https://twitter.com/seb_ruder/status/1040235236284669952?utm_campaign=NLP%20News&utm_medium=email&utm_source=Revue%20newsletter

標簽: 數(shù)據(jù)分析 網(wǎng)絡(luò)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:Julia vs Python:哪種編程語言會是2019年機器學(xué)習(xí)界的No 1?

下一篇:舉兩個栗子:如何正確建立個人的機器學(xué)習(xí)項目集