站長資訊平臺

中科院宗成慶談文本數(shù)據(jù)挖掘

2019-07-23 來源：raincent

近年來，隨著移動通信和互聯(lián)網(wǎng)技術(shù)的快速發(fā)展與普及應(yīng)用，數(shù)據(jù)挖掘技術(shù)得到了越來越多的關(guān)注。文本數(shù)據(jù)挖掘作為自然語言處理、機器學習和數(shù)據(jù)挖掘等多種技術(shù)的交叉研究領(lǐng)域，其研究熱度也逐年提升。在學術(shù)界，每年都有大量相關(guān)論文發(fā)表;在工業(yè)界，文本數(shù)據(jù)挖掘被廣泛地應(yīng)用于醫(yī)療、金融風控、司法和情報分析等各個領(lǐng)域，極大地幫助了人們提高工作效率和分析挖掘相關(guān)信息。

如何更好地入門這項技術(shù)呢?相信相關(guān)專業(yè)的學生和該領(lǐng)域的初學者都非常關(guān)心這個問題。近日，由中國科學院自動化所研究員、博士生導(dǎo)師宗成慶、南京理工大學計算機學院教授、博士生導(dǎo)師夏睿和中科院自動化所副研究員張家俊三位老師歷時兩年多撰寫的《文本數(shù)據(jù)挖掘》問世，為這項技術(shù)的推廣和應(yīng)用提供了一部優(yōu)秀的教學輔導(dǎo)書。該書全面梳理了文本數(shù)據(jù)挖掘技術(shù)各個方向的基本概念和經(jīng)典方法，并給出了具體的應(yīng)用案例，對于初學者來說這是一本不可多得的好書，對研究人員也不失一本值得參閱的手邊書。

對于宗成慶老師，相信國內(nèi)任何一位學習和從事 NLP 技術(shù)研發(fā)的人應(yīng)該都不會陌生，他撰寫的《統(tǒng)計自然語言處理》多年來都是國內(nèi) NLP 學習和研究必備的參考書。時隔數(shù)年，宗成慶老師再次發(fā)表新著，其初衷和意義為何?帶著這些問題，雷鋒網(wǎng) AI 科技評論宗和成慶老師進行了深入交流。

文本數(shù)據(jù)挖掘研究

問：文本數(shù)據(jù)挖掘作為一個研究方向，它的意義何在?

答：文本數(shù)據(jù)挖掘具有極其廣闊的應(yīng)用前景，包括金融、醫(yī)療、生物醫(yī)藥、司法和情報分析等各個領(lǐng)域。我們所說的自然語言處理技術(shù)，其應(yīng)用目標除了機器翻譯和對話系統(tǒng)以外，主要任務(wù)就是利用這本書中所介紹的這些文本數(shù)據(jù)挖掘技術(shù)進行文本的分析和處理。

問：您能否簡單介紹下這個領(lǐng)域的發(fā)展歷史?

答：其實，某些技術(shù)最早可以追溯到上個世紀的 50 年代，例如，自動文摘。那時候人們就已經(jīng)在關(guān)注如何為圖書文獻自動生成摘要。之后，應(yīng)用需求范圍不斷擴大，尤其是隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展和普及應(yīng)用，相關(guān)技術(shù)需求逐漸被提出，如情感分析、主題發(fā)現(xiàn)和追蹤等。我個人認為，這并不是一個新的領(lǐng)域，而是以自然語言處理為主，結(jié)合機器學習、數(shù)據(jù)挖掘等多種技術(shù)的具體應(yīng)用。

問：文本數(shù)據(jù)挖掘的主要難點在哪里?

答：不同的任務(wù)面臨的難點是不一樣的。但如果籠統(tǒng)一點來說的話，主要在于如何弄清楚文本作者的意圖和觀點，這是最根本的問題。不同于從數(shù)據(jù)庫中挖掘和發(fā)現(xiàn)知識，文本數(shù)據(jù)挖掘的處理的都是非結(jié)構(gòu)化的文本數(shù)據(jù)，因此自然語言處理中面臨的問題都是文本數(shù)據(jù)挖掘中的難點。

計算機和人不一樣，對于一段文字，人掃一眼就可以明白了。而計算機理解語言會涉及到太多東西，包括語言學的問題、人的背景知識和常識等。目前我們還無法清楚地知道人腦是如何理解語言的。所以從長遠的深層次研究角度，我們要和腦科學研究結(jié)合起來。目前我們正在與中科院上海神經(jīng)所、心理所等從事腦科學和語言認知研究的專家進行合作。當然，這是一個遙遠的目標。從應(yīng)用的角度，我們希望盡快利用機器學習等技術(shù)，結(jié)合語言學和具體應(yīng)用需求，建立實用的文本挖掘方法。

問：目前這一研究進展如何?

答：對人腦從事語言認知機理的研究是一個長遠的目標，屬于基礎(chǔ)性的探索研究，很難指望在短時期內(nèi)看到直接的應(yīng)用效果。但是，相關(guān)研究會給我們很多啟發(fā)，讓我們改進或者解釋現(xiàn)有的神經(jīng)網(wǎng)絡(luò)模型，或者建立更加有效的新方法�？偲饋碚f，這需要持續(xù)地研究，甚至需要幾代人一點一點地努力，去攻克這個堡壘。

《文本數(shù)據(jù)挖掘》

問：您寫作《文本數(shù)據(jù)挖掘》這本書的初衷是什么?

答：主要有幾方面考慮。一方面，我前一本書《統(tǒng)計自然語言處理》的主要內(nèi)容是自然語言處理的基礎(chǔ)理論和關(guān)鍵技術(shù)，而《文本數(shù)據(jù)挖掘》介紹的目前自然語言處理應(yīng)用領(lǐng)域中熱點的研究方向，如情感分析、主題發(fā)現(xiàn)和信息抽取等。另一方面，我在國科大為研究生開設(shè)的一門課程名稱就是「文本數(shù)據(jù)挖掘」，需要這樣一本教學輔導(dǎo)書。另外，近年來自然語言處理技術(shù)的應(yīng)用需求很大，技術(shù)發(fā)展非常之快，很多新技術(shù)和新方法不斷推出，對于我個人而言，撰寫這本書的過程也是學習和熟悉最新技術(shù)和方法，梳理學科知識的過程。

問：既然《文本數(shù)據(jù)挖掘》梳理的是最新的技術(shù)方法，那么，您此前撰寫的《統(tǒng)計自然語言處理》，其內(nèi)容需要更新嗎?

答：當然需要，因為現(xiàn)在的技術(shù)發(fā)展太快了，很多技術(shù)都已經(jīng)更新。但是，我需要在清楚地掌握這些新技術(shù)以后，才能判斷哪些新方法需要寫進書中，很多技術(shù)都需要經(jīng)過時間的驗證。其實，有些新技術(shù)已經(jīng)被寫入《文本數(shù)據(jù)挖掘》這本書里了，如詞的分布式表示，深度神經(jīng)網(wǎng)絡(luò)方法等。我認為文本數(shù)據(jù)挖掘?qū)嶋H上就是自然語言處理方向的一個延伸和擴展。

問：文本數(shù)據(jù)挖掘現(xiàn)在在企業(yè)里面有哪些具體的應(yīng)用案例?

答：文本數(shù)據(jù)挖掘技術(shù)的應(yīng)用非常廣泛。在醫(yī)學上，它可以用來幫助醫(yī)生進行診斷，或者為醫(yī)學研究者提供技術(shù)手段或知識支撐，也可以為患者提供幫助，如問診或查詢等;在金融領(lǐng)域，根據(jù)財務(wù)報告、大眾評價等一些公開的信息，可以幫助投資人分析某家公司的信譽如何;它還可以幫助法官根據(jù)以往的案例如何量刑和斷案等。

問：因為中國人主要使用中文，那么，漢語的文本挖掘和其他語言有區(qū)別嗎?

答：區(qū)別是存在的。首先，中文文本挖掘面臨著分詞的問題，這是一個基本問題。

雖然其他語言也存在這類問題，如韓國語和日語等，但是中文的分詞更麻煩，尤其對于非規(guī)范化的文本而言。其次，中文在表達方式上比較復(fù)雜，或者說比較靈活，語義表達更復(fù)雜，有時候不同的人對同一句話的理解可能也不一樣。例如，在中文文本中很多時候作者在表達觀點時都比較委婉，甚至在描述一件事情的時候喜歡繞圈子，而不會直接表達自己的意思，而在英文文本中較為直截了當。所以，在進行中文文本挖掘時需要考慮漢語篇章的特殊性。

問：文本數(shù)據(jù)挖掘這本書里面如何處理機器學習方法和傳統(tǒng)方法?

答：從性能和最終結(jié)果來看，對于很多任務(wù)來說，神經(jīng)網(wǎng)絡(luò)或者深度學習方法的結(jié)果要優(yōu)于傳統(tǒng)方法，但是傳統(tǒng)方法也有它自己的優(yōu)點，如便于結(jié)合先驗知識、可解釋等。在方法改進和創(chuàng)新研究中，我們不應(yīng)該完全拋棄原來的方法。如何把這些方法結(jié)合起來，讓它們在不同的方面發(fā)揮作用，最終取得更好的性能，這是我們的目標。創(chuàng)新就是這樣，始終在前人工作的基礎(chǔ)上一步一步地提升和前進。

在《文本數(shù)據(jù)挖掘》這本書里面，我們并沒有過多地強調(diào)深度學習方法，比較有代表性的方法都介紹了。我們希望讀者能夠完整地了解某個方向的發(fā)展歷程。在此基礎(chǔ)上，讀者自己會去進行判斷或者研究應(yīng)該如何建立更加有效的新方法。

問：您剛才提到，傳統(tǒng)的方法也很重要。那么，如果您現(xiàn)在修訂《統(tǒng)計自然語言處理》，會如何進行內(nèi)容取舍?

答：一方面，有些內(nèi)容需要壓縮�！督y(tǒng)計自然語言處理》中的有些方法在性能表現(xiàn)上有點跟不上時代了。有些方法，如統(tǒng)計機器翻譯，只需要介紹起主要思想，而不過多地介紹模型細節(jié)。另一方面，需要增加一些深度學習的新方。

進一步學習

問：如果學完了這本書以后，還想要進一步學習，您覺得應(yīng)該從哪一些方向入手?

答：《文本數(shù)據(jù)挖掘》這本書講的主要是一些比較基礎(chǔ)的方法，主要目的是帶領(lǐng)讀者進入這個領(lǐng)域。正如前面所說，這個方向發(fā)展得非常快，需要不斷地跟進和更新。每年 ACL、COLING 和 EMNLP 等本領(lǐng)域的會議上都會不斷推出一些新的方法，需要不斷地跟蹤。讀者在了解和掌握本書的基本知識之后可以通過閱讀論文、聽學術(shù)報告或其他交流形式，跟蹤和關(guān)注這一領(lǐng)域的最新進展。

問：在國內(nèi)，很多學生過度依賴開源工具，缺乏自己的思考，您怎么看待這一現(xiàn)象?應(yīng)該如何改善這一狀況?您認為優(yōu)秀的學生一般應(yīng)該具有哪些重要的品質(zhì)?

答：及時學習、跟蹤和使用開源工具，了解國際最新的前沿技術(shù)，是對學生，包括對碩士研究生和博士研究生最基本的要求。對于初學者來說，使用開源工具是一條捷徑，已有的很多創(chuàng)新也都是從模仿開始的。但是，跟蹤到一定階段，學生必須學會獨立地思考，提出創(chuàng)新思路。

目前各種誘惑和不合理的評價體系，是導(dǎo)致學生過度依賴開源工具、急功近利的主要原因之一。大家都希望在短時間內(nèi)盡快出論文、出系統(tǒng)，而不愿靜下心來深入思考。

要改變這一狀況，每一位從事科研工作的人，尤其老師和學生都有責任和義務(wù)，從我做起，從現(xiàn)在做起，不受一時利益和榮譽的誘惑，靜下心來，打牢理論基礎(chǔ)，扎扎實實地開展工作，堅守「一輩子做好一件事情」的目標和理想，才是改變這一現(xiàn)象的根本出路。

我認為優(yōu)秀學生應(yīng)該具備如下重要的品質(zhì)：能夠坐得住，甘于寂寞，持之以恒地用心鉆研，不受前人思路的限制和制約，勇于創(chuàng)新和實踐。從長遠來看，社會最終認可的一定是扎扎實實的有用的技術(shù)，而不是故弄玄虛、華而不實的墻上畫餅。

標簽：文本數(shù)據(jù)挖掘

版權(quán)申明：本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點！
本站所提供的圖片等素材，版權(quán)歸原作者所有，如需使用，請與原作者聯(lián)系。

上一篇:p 值是什么？數(shù)據(jù)科學家用最簡單的方式告訴你

下一篇:無監(jiān)督學習是深度學習的未來！Facebook首席科學家呼吁加強對無監(jiān)督學習的研究

相關(guān)文章

最新資訊

熱門推薦

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

中科院宗成慶談文本數(shù)據(jù)挖掘