站長資訊平臺

在大規(guī)模數(shù)據(jù)集上應(yīng)用潛在語義分析的三種方式

2018-08-25 來源：raincent

原標題 3 Ways to Apply Latent Semantic Analysis on Large-Corpus Text on macOS Terminal, JupyterLab, and Colab，作者為 Dr. GP Pulipaka。

在大規(guī)模數(shù)據(jù)集上利用自然語言處理產(chǎn)生描述發(fā)現(xiàn)場景，潛在語義分析會發(fā)揮作用。這有很多種不同的方法能在多個層次上執(zhí)行潛在語義分析，比如文本層次，短語層次和句子層次。最重要的是，語義分析能被概括進詞匯語義學(xué)和連詞成段或成句的研究中。

詞匯語義學(xué)能對詞匯項進行分類和分解，利用詞匯語義結(jié)構(gòu)有不同內(nèi)容的特點來區(qū)分詞的異同。段或句中的一類術(shù)語是上位詞，下位詞提供了下位詞實例間關(guān)系的含義。下位詞在相似結(jié)構(gòu)中有相似語法或相似拼寫，但卻有不同含義。下位詞間無相互關(guān)系。

「book」是一個簡單的下位詞，對于有些人而言，是閱讀，或是有著相同拼寫，形式或語法的預(yù)訂行為，但含義卻大相徑庭。一詞多義是另一種詞法現(xiàn)象，它是指單個詞能和多個相關(guān)聯(lián)的理解或是截然不同的意思相聯(lián)系，一詞多義是希臘詞匯，表示有很多種符號。

Python 提供了 NLTK 庫，通過將大段文字切成短語或有意義的字符串來實現(xiàn)抽象化文字。處理文字是通過抽象化的方式得到符號，詞形還原是將文字從當前屈折的形式轉(zhuǎn)變?yōu)榛拘问健?/p>

圖一：詞形還原的代碼片段

圖二：用 Python 對不同數(shù)據(jù)資源進行自然語言處理

潛在語義分析

在大規(guī)模數(shù)據(jù)集的文本文檔上應(yīng)用潛在語義分析，是將數(shù)學(xué)和統(tǒng)計計算方法用在大型文本語料庫中。大多數(shù)情況下，潛在語義分析的效果趕超人類水平，而受制于人類主導(dǎo)的重要測試。潛在語義分析的精確度很高，是因為它在網(wǎng)絡(luò)規(guī)模上通讀了機器易讀文檔和文本。潛在語義分析是項應(yīng)用在奇異值分解和主成分分析的技術(shù)(PCA)。文檔能被表達成矩陣 A=Z×Y, 矩陣的行代表集合里的文檔。矩陣 A 代表典型大規(guī)模語料庫文本文檔里大量成百上千的行列。應(yīng)用奇異值分解提出了一系列成為矩陣分解的操作。Python 自然語言處理的 NLTK 包應(yīng)用一些低秩逼近詞頻矩陣，而后，低秩逼近有助于索引和恢復(fù)文檔，這些文檔因聚類大量文字得到潛在語義索引而得名。

線性代數(shù)簡述

矩陣 A=Z×Y 包含實數(shù)值，使用非負值作為詞頻矩陣。確定矩陣的秩伴隨著矩陣中大量線性獨立的行或列。矩陣 A≤{Z,Y} 的秩。平方式 c×c 代表了對角矩陣，也即非對角線上的值均為零。在測試矩陣時，如果所有的 c 對角矩陣為 1，那么，矩陣就是被 lc 表示 c 的維度的單位矩陣。對于 Z×Z 的平方矩陣，A 有不包含全部零的向量 k。矩陣分解適用于利用特征向量分解成矩陣乘積的方陣。這樣可以降低詞匯的維度，從高維到可視化呈現(xiàn)在圖上的二維。利用主成分分析(PCA)和奇異值分解(SVD)的降維技術(shù)在自然語言處理上保持了較強的相關(guān)性。文檔單詞頻率的 Zipfian 屬性使得確定處于靜態(tài)階段詞匯的相似度很難。所以，特征值分解是奇異值分解的一個副產(chǎn)品，因為文檔的輸入是高度不對稱的。潛在語義分析是一種特殊技術(shù)，它在語義空間上對文檔進行解析，并用 NLKT 庫確定多義詞。像類似 punkt 和 wordnet 的資源就必須從 NLTK 庫中下載。

使用 Google Colab notebooks 進行大規(guī)模深度學(xué)習(xí)

圖 3 采用多個 NVIDIA GPU 的深度學(xué)習(xí)堆棧

在 CPU 上訓(xùn)練機器學(xué)習(xí)或者深度學(xué)習(xí)模型可能需要數(shù)個小時之久，并且就編程效率而言，這樣的代價對計算機資源的時間和能源來說可謂是相當昂貴的。出于研究和開發(fā)的目的，Google 建造了 Colab Notebook 環(huán)境。它完全在云上運行，無需為每臺設(shè)備設(shè)置額外的硬件或者軟件。它完全等同于 Jupyter notebook，它可以幫助數(shù)據(jù)科學(xué)家們通過存儲在 Google Drive 云端硬盤上來分享 Colab notebooks，這就像是在協(xié)作環(huán)境下的一些 Google 表格或文檔。Colab notebook 在程序運行中啟用 GPU 以加速程序的運行時，沒有其他的消耗。不像 Jupyter notebook 那樣可以直接從機器的本地目錄訪問數(shù)據(jù)，將數(shù)據(jù)上傳到 Colab 會有一些挑戰(zhàn)。在 Colab 中，從本地文件系統(tǒng)中上傳文件時會有多種文件來源選項，或者也可以安裝一個驅(qū)動，如通過 Google 的 drive FUSE wrapper 去加載數(shù)據(jù)。

圖 4 安裝 Google 的 driver FUSE wrapper

完成完成此步驟后，它會顯示如下日志并沒有報錯：

圖 5 macOS 上的安裝顯示的安裝日志

下一步是生成身份驗證令牌，用以驗證 Google Drive 云端硬盤和 Colab 的 Google 憑據(jù)。

圖 6 驗證憑據(jù)

如果顯示成功獲取訪問令牌，則 Colab 會準備就緒。

圖 7 驗證訪問令牌

在此階段，當訪問文本文件的內(nèi)容時，如果驅(qū)動尚未安裝, 那么它將顯示 False。

圖 8 驗證對 Google Drive 云端硬盤中已上傳的 Colab notebook 文件的訪問

驅(qū)動安裝后，Colab 可以訪問 Google Drive 云端硬盤中的數(shù)據(jù)集。

圖 9 在此鍵入標題

一旦文件可訪問，Python 就可以像是在 Jupyter 環(huán)境中執(zhí)行一樣執(zhí)行。Colab notebook 顯示的結(jié)果也類似于我們在 Jupyter notebook 中所看到的那樣。

圖 10 程序運行的結(jié)果

PyCharm IDE

該程序可在 PyCharm IDE 環(huán)境中編譯，并在 PyCharm 上運行，也可以在 OSX 終端中執(zhí)行。

圖 11 PyCharm IDE 中 Python 自然語言處理中的 LSA 分析

在 OSX 終端中運行的結(jié)果

圖 12 在 OSX 終端中運行的結(jié)果

獨立運行的計算機中的 Jupyter Notebook

在本地機器上運行潛在語義分析的 Jupyter Notebook 給出了一個相似的輸出：

圖 13 在 Jupyter notebook 上運行潛在語義分析

圖 14 結(jié)果

參考文獻

Gorrell, G. (2006). Generalized Hebbian Algorithm for Incremental Singular Value Decomposition in Natural Language Processing. Retrieved from https://www.aclweb.org/anthology/E06-1013

Hardeniya, N. (2016). Natural Language Processing: Python and NLTK . Birmingham, England: Packt Publishing.

Landauer, T. K., Foltz, P. W., Laham, D., & University of Colorado at Boulder (1998). An Introduction to Latent Semantic Analysis. Retrieved from http://lsa.colorado.edu/papers/dp1.LSAintro.pdf

Stackoverflow (2018). Mounting Google Drive on Google Colab. Retrieved from https://stackoverflow.com/questions/50168315/mounting-google-drive-on-google-colab

Stanford University (2009). Matrix decompositions and latent semantic indexing. Retrieved from https://nlp.stanford.edu/IR-book/html/htmledition/matrix-decompositions-and-latent-semantic-indexing-1.html

原文鏈接：https://medium.com/datadriveninvestor/3-ways-to-apply-latent-semantic-analysis-on-large-corpus-text-on-macos-terminal-jupyterlab-colab-7b4dc3e1622

標簽： Google 代碼網(wǎng)絡(luò)

版權(quán)申明：本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點！
本站所提供的圖片等素材，版權(quán)歸原作者所有，如需使用，請與原作者聯(lián)系。

上一篇:如何打造更加可靠、高效的儲能型數(shù)據(jù)中心

下一篇:Uber永久定位系統(tǒng)實時數(shù)據(jù)分析過程實踐！

相關(guān)文章

最新資訊

熱門推薦

為學(xué)習(xí)和知識分享目的，本站文章部分自網(wǎng)絡(luò)，本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：2653426586@qq.com QQ：2653426586

如有其他需求，請聯(lián)系：2653426586@qq.com QQ：2653426586

友情鏈接：網(wǎng)絡(luò)安全運維經(jīng)驗 IT技術(shù)分享運維隨筆錄鮮花東郊到家往約到家

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

在大規(guī)模數(shù)據(jù)集上應(yīng)用潛在語義分析的三種方式