中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

數(shù)據(jù)不足,如何進(jìn)行遷移學(xué)習(xí)?

2018-12-21    來(lái)源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

現(xiàn)在,人工智能的發(fā)展處于跳躍式階段,我們也對(duì)AI在大型數(shù)據(jù)集的應(yīng)用進(jìn)展感到吃驚。更重要的是,那些我們沒(méi)有跟蹤的數(shù)十億張照片或餐廳的評(píng)論并沒(méi)有被遺漏掉:遷移學(xué)習(xí)技術(shù)讓收集數(shù)據(jù)變得更加“容易”。另外,得益于PyTorch框架、fast.ai應(yīng)用程序庫(kù)以及FloydHub公司,小團(tuán)隊(duì)或者是個(gè)別開(kāi)發(fā)人員也能輕松的應(yīng)用這些方法。

本文要講的例子就是ULMFiT:Jeremy Howard和Sebastian Ruder在fast.ai展示了如何用幾百個(gè)標(biāo)記準(zhǔn)確的對(duì)電影評(píng)論進(jìn)行分類。除此之外,還有一個(gè)在通用英語(yǔ)文本語(yǔ)料庫(kù)中訓(xùn)練的模型。

 

 

除了英語(yǔ)文本資料庫(kù)和標(biāo)記對(duì)評(píng)論進(jìn)行分類外,fast.ai還有一個(gè)小技巧,它擁有大量特定領(lǐng)域的文本:10萬(wàn)多個(gè)樣本評(píng)論,來(lái)展示普通英語(yǔ)和電影評(píng)論之間的區(qū)別。這引發(fā)了我們的思考:至少得需要多少數(shù)據(jù),才足以彌合訓(xùn)練示例和通用語(yǔ)言模型之間的差距?

這并不是一個(gè)特別愚蠢的問(wèn)題。Frame可以幫助Zendesk,Intercom和Slack等規(guī)模性公司標(biāo)記、評(píng)價(jià)和理解與客戶的對(duì)話。也就是說(shuō), “只要有足夠的對(duì)話,我們就可以手動(dòng)評(píng)價(jià)”和“我們有足夠的數(shù)據(jù)從頭訓(xùn)練一個(gè)模型”,這二者之間有很大的差距。僅僅幾十個(gè)標(biāo)簽和幾千條相關(guān)對(duì)話,這能夠做什么?

事實(shí)證明,這非常有用。在本文中,我們將使用相同的電影評(píng)論數(shù)據(jù)集來(lái)證明:即便是只有少部分的數(shù)據(jù),數(shù)據(jù)遷移依然可以有效。更加詳細(xì)的代碼請(qǐng)參考ULMFiT。

遷移什么?

深度神經(jīng)網(wǎng)絡(luò)是當(dāng)前最新人工智能背后的關(guān)鍵技術(shù),比如理解圖像、音頻或文本。深度神經(jīng)網(wǎng)絡(luò)的核心是它由層(“深度”)組成,每個(gè)層都將輸入轉(zhuǎn)換為更接近網(wǎng)絡(luò)訓(xùn)練答案的新的表示。

我們通常會(huì)抱怨,不了解神經(jīng)網(wǎng)絡(luò)的中間層到底發(fā)生了什么……其實(shí),它們通常被設(shè)計(jì)為更加清晰、可解釋的角色!比如:很多語(yǔ)言模型利用嵌入層將單個(gè)單詞或短語(yǔ)進(jìn)行分類,將具有相似含義的單詞或短語(yǔ)放在一起。舉個(gè)例子來(lái)說(shuō),這將有助于翻譯AI在需要使用“杰出”(illustrious)這個(gè)詞的時(shí)候,會(huì)根據(jù)經(jīng)驗(yàn)選擇使用“偉大”(great)。

 

 

現(xiàn)在變得更有趣了:一個(gè)“知道”“illustrious = great”的層不僅有利于翻譯,還可以學(xué)習(xí)情緒估計(jì),將不同的觀點(diǎn)聚集起來(lái)。這就是遷移學(xué)習(xí),也就是說(shuō)模型在一個(gè)任務(wù)中學(xué)習(xí)到的東西可以對(duì)另外一個(gè)學(xué)習(xí)任務(wù)有幫助。事實(shí)上,這個(gè)特殊的例子特別受歡迎,以至于改進(jìn)的通用語(yǔ)言模型已經(jīng)成為一個(gè)全新的領(lǐng)域!

 

 

遷移學(xué)習(xí)不僅有利于任務(wù)之間的轉(zhuǎn)移:它可以幫助一般模型在特定環(huán)境中更好的工作。例如:一個(gè)通用的英語(yǔ)情緒模型或許可以預(yù)測(cè)電影評(píng)論,但是可能不知道“緊張、緊張的驚悚”是件好事。

這就是Jeremy和Sebastian Rudder的通用語(yǔ)言模型微調(diào)文本分類(ULMFiT)的用武之地。他們對(duì)一個(gè)包含100,000個(gè)IMDB評(píng)論的通用語(yǔ)言模型做了改進(jìn)。即便是只標(biāo)記幾百個(gè)單詞,其余的單詞也能夠幫助AI學(xué)習(xí)審稿人經(jīng)常用“杰出”或“很好”代替“緊張、緊繃”等,這很好的彌補(bǔ)了數(shù)據(jù)不足的缺陷。結(jié)果的準(zhǔn)確度令我們感到驚訝:僅僅有500個(gè)標(biāo)記示例,分類的準(zhǔn)確度卻高達(dá)94%。

未被標(biāo)記的數(shù)據(jù)最少需要多少?

ULMFiT為NLP提供了一個(gè)有力的依據(jù),使模型能夠更有效的利用較小的數(shù)據(jù)集。在這項(xiàng)研究中,我們專注于回答以下問(wèn)題:

如果我們對(duì)標(biāo)記示例的預(yù)算特別少,那么,得需要收集多少未標(biāo)記的數(shù)據(jù)才能有效的使用遷移學(xué)習(xí)?

為了解決這個(gè)問(wèn)題,我們使用了大量固定的域數(shù)據(jù)池,并改變了標(biāo)記示例的數(shù)量,來(lái)看看模型應(yīng)該如何改進(jìn)。將標(biāo)記示例的數(shù)量保持不變,并改變未標(biāo)記的其他域示例的數(shù)量。也就是說(shuō),我們的實(shí)驗(yàn)包括:

1.語(yǔ)言建模(變量)
2.語(yǔ)言任務(wù)(不變量)

我們的語(yǔ)言任務(wù)、情感分類和原始的ULMFiT論文中的任務(wù)相同,另外,也使用了IMDB電影評(píng)論數(shù)據(jù)集。在實(shí)驗(yàn)中,標(biāo)記情緒訓(xùn)練樣本的數(shù)量保持在500個(gè),500個(gè)樣本可以用于很多小領(lǐng)域的研究,并且,有助于強(qiáng)調(diào)不同語(yǔ)言模型的差異提升能力。

 

 

對(duì)于語(yǔ)言建模,我們改變了可用于語(yǔ)言任務(wù)的三種語(yǔ)言模型的域數(shù)據(jù)量:

•僅限ULM:這是使用Wikitext103預(yù)訓(xùn)練英語(yǔ)語(yǔ)言模型

•僅限域(domain):僅在IMDB數(shù)據(jù)上的基于域訓(xùn)練的模型。

•ULM +域(domain):ULMFiT模型

訓(xùn)練這些模型的計(jì)算量特別大,最大的域訓(xùn)練可能需要幾天的時(shí)間才能完成。為了加快訓(xùn)練速度和有效的執(zhí)行網(wǎng)格搜索,我們使用了FloydHub。

結(jié)果

經(jīng)過(guò)大約50個(gè)小時(shí)GPU處理,結(jié)果如下:

 

 

從實(shí)驗(yàn)結(jié)果,我們可得知:

•使用33%的域數(shù)據(jù),就可以獲得75%數(shù)據(jù)的UMLFiT性能。
•令人驚訝的是,ULM + 2,000域示例的語(yǔ)言任務(wù)預(yù)測(cè)準(zhǔn)確率約為85%。

文章原標(biāo)題《Learning More with Less: Frame explores transfer learning in low-data environments with FloydHub, fast.ai, and PyTorch》

譯者:Mags,審校:袁虎。

標(biāo)簽: 代碼 搜索 網(wǎng)絡(luò)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:數(shù)據(jù)科學(xué)中各職業(yè)都在做什么?有什么區(qū)別?

下一篇:《統(tǒng)計(jì)學(xué)習(xí)方法》的Python 3.6復(fù)現(xiàn),實(shí)測(cè)可用