站長資訊平臺

量化評估、算法拓展：強化學(xué)習(xí)研究的10大原則

2018-12-21 來源：raincent

今年9月份舉辦的深度學(xué)習(xí)Indaba2018峰會的干貨確實不少，今天給大家整理一份關(guān)于強化學(xué)習(xí)的10個原則，不僅在強化學(xué)習(xí)中有用，在機器學(xué)習(xí)研究中也能夠提供一些參考。

這10個原則是一位來自Insight數(shù)據(jù)分析研究中心的博士生Sebastian Ruder在參會期間對David Silver報告進行的整理，除了Ruder自己的解析外，也把他自己拍的照片分享了出來。

評估推動進步

量化的評估才能推動進步。評估獎勵的選擇決定了進步的方向，要確保評估指標與目標密切相關(guān)，避免主觀評價(例如人類學(xué)科)。還有一點，雙Q學(xué)習(xí)優(yōu)于單Q學(xué)習(xí)，因為后者能減少偏見。

算法的可擴展性決定成功

算法如何擴展非常重要，要避免性能上限。深度學(xué)習(xí)非常棒，因為它可以有效地擴展，但是樣本效率同樣重要。

算法的可擴展性的表現(xiàn)取決于資源，而算法的可擴展性決定是否成功：那么給予更多資源，性能如何提高?值得一提的是，這里的資源指的是計算，內(nèi)存或數(shù)據(jù)。

通用性，即算法在其他任務(wù)上的表現(xiàn)非常重要

關(guān)鍵是要設(shè)計一系列具有挑戰(zhàn)性的任務(wù)，即應(yīng)該對不同的新任務(wù)進行評估。避免過度使用當(dāng)前的任務(wù)。

相信Agent的經(jīng)驗

不要依賴人類的專業(yè)知識，不要依賴于工程特征。在數(shù)據(jù)有限時，領(lǐng)域?qū)I(yè)知識和歸納偏差非常重要。

一些任務(wù)可能看起來不太可能完成，但是，你確實能在其中學(xué)到很多經(jīng)驗。這種任務(wù)或者項目，通常滿足這三點：

1.很難接受RL的核心問題。

1.是AI的核心問題

3.非常值得你去努力

狀態(tài)應(yīng)該是主觀的

應(yīng)將狀態(tài)建立為模型的狀態(tài)，即RNN的隱藏狀態(tài)，而不是根據(jù)環(huán)境定義。只有agent對世界的主觀看法才是重要的。不要推理外部現(xiàn)實，因為達到的效果非常有限。

控制流

Agent影響數(shù)據(jù)流和體驗。Agent應(yīng)該有能夠訪問控制環(huán)境的功能。重點不僅在于最大化獎勵，還在于建立對流的控制。

價值函數(shù)塑造世界

價值函數(shù)有效地總結(jié)了當(dāng)前和未來的狀況。多值函數(shù)允許我們模擬世界的多個方面�？梢詭椭刂屏�。

從想象的經(jīng)驗(imagined experience)中學(xué)習(xí)

接下來該怎樣規(guī)劃?同樣的，RL算法可以從想象的經(jīng)驗(imagined experience)中學(xué)習(xí)，如Alphago中使用MCTS和值函數(shù)。

利用函數(shù)逼近器

可以將算法復(fù)雜度揉進神經(jīng)網(wǎng)絡(luò)架構(gòu)，甚至MCTS，分層控制等也可以用NN建模。然后要真正理解：我們從模型學(xué)到了什么。

學(xué)會學(xué)習(xí)

必須精通元學(xué)習(xí)，然后，你可能不再需要手工設(shè)置網(wǎng)絡(luò)架構(gòu)，一切都是端到端學(xué)習(xí)�？偠灾�，神經(jīng)網(wǎng)絡(luò)要通過盡可能少的人工干預(yù)來處理事情。但是，歸納偏差應(yīng)該仍然有用。

相關(guān)報道：https://twitter.com/seb_ruder/status/1040235236284669952?utm_campaign=NLP%20News&utm_medium=email&utm_source=Revue%20newsletter

標簽：數(shù)據(jù)分析網(wǎng)絡(luò)

版權(quán)申明：本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點！
本站所提供的圖片等素材，版權(quán)歸原作者所有，如需使用，請與原作者聯(lián)系。

上一篇:Julia vs Python：哪種編程語言會是2019年機器學(xué)習(xí)界的No 1？

下一篇:舉兩個栗子：如何正確建立個人的機器學(xué)習(xí)項目集

相關(guān)文章

最新資訊

熱門推薦

為學(xué)習(xí)和知識分享目的，本站文章部分自網(wǎng)絡(luò)，本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：2653426586@qq.com QQ：2653426586

如有其他需求，請聯(lián)系：2653426586@qq.com QQ：2653426586

友情鏈接：網(wǎng)絡(luò)安全運維經(jīng)驗 IT技術(shù)分享運維隨筆錄鮮花東郊到家往約到家

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

量化評估、算法拓展：強化學(xué)習(xí)研究的10大原則

量化評估、算法拓展：強化學(xué)習(xí)研究的10大原則