中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

一份不可多得的自然語言處理資源清單

2018-10-02    來源:raincent

容器云強(qiáng)勢上線!快速搭建集群,上萬Linux鏡像隨意使用

 


自然語言處理(Natural Langauge Processing,NLP)是計(jì)算機(jī)系統(tǒng)理解人類語言的一種能力,它也是人工智能(AI)的子集。NLP在很多商業(yè)場景中都有所應(yīng)用,比如推薦系統(tǒng)、對話機(jī)器人等。NLP相關(guān)的崗位薪資和前景在機(jī)器學(xué)習(xí)算法崗中也是具有很大的吸引力,很多人轉(zhuǎn)行從事這方面的研究,大多數(shù)人是通過自學(xué)來提升自己的能力。目前,網(wǎng)絡(luò)上也有很多多免費(fèi)資源可以幫助自學(xué)者發(fā)展NLP方面的專業(yè)知識,但資源多且雜,沒有很好的一條線將其串起來,那么在本文中,我們列出了針對初學(xué)者和中級學(xué)習(xí)者的學(xué)習(xí)資源。

針對初學(xué)者的NLP資源

 


對于初學(xué)者而言,可以采用兩種方法,即傳統(tǒng)的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)來學(xué)習(xí)使用NLP,這兩種方法差別很大的,這里講述了兩者之間的區(qū)別。

傳統(tǒng)的機(jī)器學(xué)習(xí)


傳統(tǒng)的機(jī)器學(xué)習(xí)算法一般比較復(fù)雜,通常不易被人理解。以下是一些資源,可以幫助讀者開始使用機(jī)器學(xué)習(xí)學(xué)習(xí)NLP:

  • Jurafsky和Martin的語音和語言處理是傳統(tǒng)自然語言處理領(lǐng)域中廣受好評的圣經(jīng);
  • 更實(shí)用的方法是可以嘗試使用 Natural Language Toolkit;


深度學(xué)習(xí)


深度學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域中的一個子領(lǐng)域,由于人工神經(jīng)網(wǎng)絡(luò)的引入,其性能一般遠(yuǎn)遠(yuǎn)優(yōu)于傳統(tǒng)的機(jī)器學(xué)習(xí)方法。初學(xué)者可以從以下資源開始:

  • CS 224n:這是斯坦福大學(xué)的公開課,也是開始使用深度學(xué)習(xí)進(jìn)行NLP的最佳課程;
  • Yoav Golberg出版的免費(fèi)和付費(fèi)書籍也是開始深度學(xué)習(xí)NLP的重要資源;
  • 所有算法的非常全面的報道都可以在Jacob Einsenstein的NLP課程筆記中找到,該課程幾乎涉及所有NLP方法。


針對從業(yè)者的NLP資源


如果你是一名數(shù)據(jù)科學(xué)家,那么將需要以下三種類型的資源:
1.快速入門指南/了解熱門和新的知識;
2.特定問題的方法調(diào)查;
3.定期關(guān)注博客;
 

快速入門指南/了解熱門和新的知識


  • 可以從Otter等人的深度學(xué)習(xí)NLP綜述開始;
  • Young等人的綜述,試圖總結(jié)基于深度學(xué)習(xí)的NLP中的所有內(nèi)容,并建議從業(yè)者開始使用NLP。
  • 可以參考這篇文章來了解LSTM和RNN的基礎(chǔ)知識,它們在NLP中經(jīng)常被使用。LSTMs的另一個更知名的總結(jié)可以在此閱讀,這是一篇有趣的論文,用于了解RNN隱藏狀態(tài)的工作原理,同時推薦以下兩篇有趣的博文:
    1.http://colah.github.io/posts/2015-08-Understanding-LSTMs

2.https://distill.pub/2016/augmented-rnns/

  • 卷積神經(jīng)網(wǎng)絡(luò)(Convnets)可用于理解自然語言,通過閱讀此文可以幫助你想象在Convnets中處理NLP;
  • Convnets和RNNs之間的相互比較已經(jīng)在此文中總結(jié)出,二者實(shí)現(xiàn)的pytorch代碼也公開在此;


特定問題的方法調(diào)查


從業(yè)者需要的另一類資源是對特定問題的回答:“我必須訓(xùn)練一個算法來完成某一項(xiàng)任務(wù)X,此時我能使用的最有利(也很容易獲得)的東西是什么呢?”。
以下是你需要的內(nèi)容:
 

文本分類


人們解決NLP的第一個問題是什么呢,主要是文本分類。文本分類可以將文本分類為不同的類別或檢測文本中的情感。

  • ParallelDots 博客中描述了關(guān)于情感分析的不同調(diào)查,雖然該調(diào)查是針對情感分析技術(shù)的,但可以將其擴(kuò)展到大多數(shù)文本分類問題中。
  • 另一項(xiàng)關(guān)于情感分析算法的調(diào)查(由Linked大學(xué)和UIUC的人員進(jìn)行)可以通過在此閱讀。
  • 遷移學(xué)習(xí)在深入學(xué)習(xí)中變得非常熱門,尤其是在圖像處理任務(wù)中,只需要針對具體的分類任務(wù)進(jìn)行模型微調(diào)就可以獲得比較好的性能,同理,在維基百科上訓(xùn)練用于語言建模的NLP模型也可以在相對較少量的數(shù)據(jù)上遷移學(xué)習(xí)文本分類。以下是來自相關(guān)的資源鏈接:
    1.https://arxiv.org/abs/1801.06146

2.https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf

  • Fast.ai上有一個關(guān)于NLP的學(xué)習(xí)文檔可供使用,鏈接在此。
    如果你正在學(xué)習(xí)兩個不同的任務(wù),而沒有使用遷移學(xué)習(xí)的話,在此處提到了使用Convnet的技巧。
  • 我們還發(fā)布了關(guān)于Zero Shot Text分類的工作,該工作在沒有任何數(shù)據(jù)集培訓(xùn)的情況下獲得了良好的準(zhǔn)確性,并且正在開發(fā)下一代。我們構(gòu)建了自定義文本分類API,讀者可以在其中定義自己的類別。


序列標(biāo)記

 

  • 序列標(biāo)記是一種標(biāo)記具有不同屬性的單詞的任務(wù),這些任務(wù)包括詞性標(biāo)注、命名實(shí)體識別、關(guān)鍵字標(biāo)記等,我們在這里為這些任務(wù)寫了一個有趣的方法調(diào)查。
  • 今年COLING的研究論文為這些問題提供了一個很好的資源,它為訓(xùn)練序列標(biāo)記算法提供了最佳指導(dǎo)。


機(jī)器翻譯


  • 最近,NLP最大的進(jìn)步之一就是發(fā)現(xiàn)了可以將文本從一種語言翻譯成另一種語言的算法。谷歌的系統(tǒng)采用的是一個復(fù)雜的16層LSTM,并提供最先進(jìn)的翻譯結(jié)果。
  • 此外,部分媒體專家吹噓炒作不成比例,一些夸張的報道聲稱“Facebook必須關(guān)閉發(fā)明自己語言的人工智能”:
    1.https://gadgets.ndtv.com/social-networking/news/facebook-shuts-ai-system-after-bots-create-own-language-1731309

2.https://www.forbes.com/sites/tonybradley/2017/07/31/facebook-ai-creates-its-own-language-in-creepy-preview-of-our-potential-future/#1d1ca041292c

  • 關(guān)于機(jī)器翻譯的教程,請參閱菲利浦科恩的研究論文。使用深度學(xué)習(xí)機(jī)器翻譯的具體評論在此。
    以下是本人最喜歡的幾篇論文:
  • 谷歌的這篇論文告訴我們?nèi)绾卧谟写罅抠Y金和數(shù)據(jù)的情況下端到端地解決問題;
  • Facebook的 Convolutional NMT系統(tǒng)及其代碼在此處作為庫發(fā)布;
  • https://marian-nmt.github.io/是一個用C ++快速翻譯的框架;
  • http://www.aclweb.org/anthology/P18-4020;
  • http://opennmt.net/使每個人都能夠訓(xùn)練他們的NMT系統(tǒng);


問答系統(tǒng)

 

市面上有許多不同類型的問答任務(wù),比如從選項(xiàng)中選擇、從段落或知識圖表中選擇答案并根據(jù)圖像回答問題,并且有不同的數(shù)據(jù)集可以了解最新技術(shù)方法。
* SQuAD數(shù)據(jù)集是一個問答數(shù)據(jù)集,它測試算法閱讀理解和回答問題的能力。微軟在今年早些時候發(fā)表的一篇論文中聲稱,他們已經(jīng)達(dá)到了人類級別的精度。另一個重要的算法是Allen AI的BIDAF及其改進(jìn)版;

  • 另一個重要的算法是Visual Question Answering,它可以回答有關(guān)圖像的問題。Teney等人的論文是一個很好的入門資源,可以在Github上找到實(shí)現(xiàn)代碼;
  • 在現(xiàn)實(shí)生活中,提取問答對大型文件應(yīng)答可使用遷移學(xué)習(xí)來完成,相關(guān)的論文可以在此訪問;


改述、句子相似或推理
 

NLP有三個不同的任務(wù):句子相似性,釋義檢測和自然語言推理(NLI),每個都需要比上一個更多的語義理解。 MultiNLI及其子集Stanford NLI是NLI最有名的基準(zhǔn)數(shù)據(jù)集,并且最近成為了研究的焦點(diǎn);此外,還有MS復(fù)述語料庫和Quora語料庫用于釋義檢測,以及用于STS的SemEval數(shù)據(jù)集(語義文本相似性),可在這里找到此領(lǐng)域中對相關(guān)模型的調(diào)查綜述。在臨床領(lǐng)域應(yīng)用NLI是非常重要的,比如了解正確的醫(yī)療程序、副作用和藥物的交叉影響等,此教程是醫(yī)學(xué)領(lǐng)域中應(yīng)用NLI的一個好資源。
下面是這個領(lǐng)域推薦的論文列表:

  • 交互空間的自然語言推理——它采用了一種非常聰明的方法,使用DenseNet表示句子,你可以在這里閱讀該論文;
  • 這篇來自O(shè)mar Levy小組的研究論文表明,即使是簡單的算法也能完成任務(wù);
  • BiMPM是預(yù)測釋義的一個好模型,可以在這里訪問;
  • 我們還有一項(xiàng)關(guān)于釋義檢測的新工作,它將關(guān)系網(wǎng)絡(luò)應(yīng)用于句子表示之上,并已在今年的AINL會議上被接受。


其他領(lǐng)域
 

以下是一些更詳細(xì)的綜述性文章,閱讀這些文章可以幫助你,獲取在制作NLP系統(tǒng)時可能遇到的其他任務(wù)的研究信息。

  • 語言建模(LM)——語言建模是學(xué)習(xí)一個無監(jiān)督語言表示的任務(wù),這是通過給定前N個單詞的句子來預(yù)測第(n + 1)個單詞。這些模型具有兩個重要的實(shí)際用途,即自動完成并用作文本分類的轉(zhuǎn)移學(xué)習(xí)的基礎(chǔ)模型。詳細(xì)的綜述文章在此,如果有興趣了解如何根據(jù)搜索歷史自動完成手機(jī)/搜索引擎中的LSTM工作, 可以閱讀這篇論文;
  • 關(guān)系提取——關(guān)系提取是提取句子中存在的實(shí)體之間關(guān)系的任務(wù),給定的句子“A像r一樣與B相關(guān)”,那么得到三元組(A,r,B)。詳細(xì)的綜述文章在此,它使用BIDAF進(jìn)行零射擊關(guān)系提取;
  • 對話系統(tǒng)—— 隨著聊天機(jī)器人革命的開始,對話系統(tǒng)現(xiàn)在也風(fēng)靡一時。許多人將對話系統(tǒng)看作成意圖檢測、關(guān)鍵字檢測、問答等模型的組合,而其他人則嘗試端到端地對其進(jìn)行建模。詳細(xì)的綜述文章在此,在這里提下Facebook AI的Parl.ai框架;
  • 文本摘要——文本摘要用于從文檔中獲取精簡文本(段落/新聞文章等)。有兩種方法可以做到這一點(diǎn):提取和抽象總結(jié)。雖然抽取摘要從文章中提供了具有最高信息內(nèi)容的句子,但抽象概括的目的是像人類一樣編寫摘要。來自愛因斯坦AI的演示將抽象概括帶入了主流研究中,詳細(xì)的綜述文章在此;
  • 自然語言生成(NLG)—— 自然語言生成是計(jì)算機(jī)旨在像人類一樣寫作的研究,可能是寫故事、詩歌、圖像標(biāo)題等。目前,在生成圖像標(biāo)題上已經(jīng)做得很好了,其中將LSTM和注意機(jī)制相結(jié)合,使得輸出可用于現(xiàn)實(shí)生活中,詳細(xì)的綜述文章在此;


關(guān)注博客


以下是推薦關(guān)注的博客列表,對于NLP感興趣的讀者可以時常瀏覽:

  • 愛因斯坦AI : https://einstein.ai/research
  • Google AI:https://ai.googleblog.com/
  • WildML: http://www.wildml.com/
  • DistillPub: https://distill.pub/
  • Sebastian Ruder: http://ruder.io/


作者信息


Muktabh Mayank,數(shù)據(jù)科學(xué)家、企業(yè)家、社會學(xué)家
文章原標(biāo)題《Free resources to learn Natural Language Processing》,譯者:Uncle_LLD。
 

標(biāo)簽: Google 代碼 谷歌 媒體 搜索 搜索引擎 網(wǎng)絡(luò)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:加快大數(shù)據(jù)戰(zhàn)略布局 合力推動發(fā)展共享數(shù)字中國

下一篇:UPS市場發(fā)展驅(qū)動力:鋰離子電池和分布式計(jì)算