中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

在大規(guī)模數(shù)據(jù)集上應(yīng)用潛在語義分析的三種方式

2018-08-25    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

原標題 3 Ways to Apply Latent Semantic Analysis on Large-Corpus Text on macOS Terminal, JupyterLab, and Colab,作者為 Dr. GP Pulipaka。

在大規(guī)模數(shù)據(jù)集上利用自然語言處理產(chǎn)生描述發(fā)現(xiàn)場景,潛在語義分析會發(fā)揮作用。這有很多種不同的方法能在多個層次上執(zhí)行潛在語義分析,比如文本層次,短語層次和句子層次。最重要的是,語義分析能被概括進詞匯語義學(xué)和連詞成段或成句的研究中。

詞匯語義學(xué)能對詞匯項進行分類和分解,利用詞匯語義結(jié)構(gòu)有不同內(nèi)容的特點來區(qū)分詞的異同。段或句中的一類術(shù)語是上位詞,下位詞提供了下位詞實例間關(guān)系的含義。下位詞在相似結(jié)構(gòu)中有相似語法或相似拼寫,但卻有不同含義。下位詞間無相互關(guān)系。

「book」是一個簡單的下位詞,對于有些人而言,是閱讀,或是有著相同拼寫,形式或語法的預(yù)訂行為,但含義卻大相徑庭。一詞多義是另一種詞法現(xiàn)象,它是指單個詞能和多個相關(guān)聯(lián)的理解或是截然不同的意思相聯(lián)系,一詞多義是希臘詞匯,表示有很多種符號。

Python 提供了 NLTK 庫,通過將大段文字切成短語或有意義的字符串來實現(xiàn)抽象化文字。處理文字是通過抽象化的方式得到符號,詞形還原是將文字從當前屈折的形式轉(zhuǎn)變?yōu)榛拘问健?/p>

 

 

圖一:詞形還原的代碼片段

 

 

圖二:用 Python 對不同數(shù)據(jù)資源進行自然語言處理

潛在語義分析

在大規(guī)模數(shù)據(jù)集的文本文檔上應(yīng)用潛在語義分析,是將數(shù)學(xué)和統(tǒng)計計算方法用在大型文本語料庫中。大多數(shù)情況下,潛在語義分析的效果趕超人類水平,而受制于人類主導(dǎo)的重要測試。潛在語義分析的精確度很高,是因為它在網(wǎng)絡(luò)規(guī)模上通讀了機器易讀文檔和文本。潛在語義分析是項應(yīng)用在奇異值分解和主成分分析的技術(shù)(PCA)。文檔能被表達成矩陣 A=Z×Y, 矩陣的行代表集合里的文檔。矩陣 A 代表典型大規(guī)模語料庫文本文檔里大量成百上千的行列。應(yīng)用奇異值分解提出了一系列成為矩陣分解的操作。Python 自然語言處理的 NLTK 包應(yīng)用一些低秩逼近詞頻矩陣,而后,低秩逼近有助于索引和恢復(fù)文檔,這些文檔因聚類大量文字得到潛在語義索引而得名。

線性代數(shù)簡述

矩陣 A=Z×Y 包含實數(shù)值,使用非負值作為詞頻矩陣。確定矩陣的秩伴隨著矩陣中大量線性獨立的行或列。矩陣 A≤{Z,Y} 的秩。平方式 c×c 代表了對角矩陣,也即非對角線上的值均為零。在測試矩陣時,如果所有的 c 對角矩陣為 1,那么,矩陣就是被 lc 表示 c 的維度的單位矩陣。對于 Z×Z 的平方矩陣,A 有不包含全部零的向量 k。矩陣分解適用于利用特征向量分解成矩陣乘積的方陣。這樣可以降低詞匯的維度,從高維到可視化呈現(xiàn)在圖上的二維。利用主成分分析(PCA)和奇異值分解(SVD)的降維技術(shù)在自然語言處理上保持了較強的相關(guān)性。文檔單詞頻率的 Zipfian 屬性使得確定處于靜態(tài)階段詞匯的相似度很難。所以,特征值分解是奇異值分解的一個副產(chǎn)品,因為文檔的輸入是高度不對稱的。潛在語義分析是一種特殊技術(shù),它在語義空間上對文檔進行解析,并用 NLKT 庫確定多義詞。像類似 punkt 和 wordnet 的資源就必須從 NLTK 庫中下載。

使用 Google Colab notebooks 進行大規(guī)模深度學(xué)習(xí)

 

 

圖 3 采用多個 NVIDIA GPU 的深度學(xué)習(xí)堆棧

在 CPU 上訓(xùn)練機器學(xué)習(xí)或者深度學(xué)習(xí)模型可能需要數(shù)個小時之久,并且就編程效率而言,這樣的代價對計算機資源的時間和能源來說可謂是相當昂貴的。出于研究和開發(fā)的目的,Google 建造了 Colab Notebook 環(huán)境。它完全在云上運行,無需為每臺設(shè)備設(shè)置額外的硬件或者軟件。它完全等同于 Jupyter notebook,它可以幫助數(shù)據(jù)科學(xué)家們通過存儲在 Google Drive 云端硬盤上來分享 Colab notebooks,這就像是在協(xié)作環(huán)境下的一些 Google 表格或文檔。Colab notebook 在程序運行中啟用 GPU 以加速程序的運行時,沒有其他的消耗。不像 Jupyter notebook 那樣可以直接從機器的本地目錄訪問數(shù)據(jù),將數(shù)據(jù)上傳到 Colab 會有一些挑戰(zhàn)。在 Colab 中,從本地文件系統(tǒng)中上傳文件時會有多種文件來源選項,或者也可以安裝一個驅(qū)動,如通過 Google 的 drive FUSE wrapper 去加載數(shù)據(jù)。

 

 

圖 4 安裝 Google 的 driver FUSE wrapper

完成完成此步驟后,它會顯示如下日志并沒有報錯:

 

 

圖 5 macOS 上的安裝顯示的安裝日志

下一步是生成身份驗證令牌,用以驗證 Google Drive 云端硬盤和 Colab 的 Google 憑據(jù)。

 

 

圖 6 驗證憑據(jù)

如果顯示成功獲取訪問令牌,則 Colab 會準備就緒。

 

 

圖 7 驗證訪問令牌

在此階段,當訪問文本文件的內(nèi)容時,如果驅(qū)動尚未安裝, 那么它將顯示 False。

 

 

圖 8 驗證對 Google Drive 云端硬盤中已上傳的 Colab notebook 文件的訪問

驅(qū)動安裝后,Colab 可以訪問 Google Drive 云端硬盤中的數(shù)據(jù)集。

 

 

圖 9 在此鍵入標題

一旦文件可訪問,Python 就可以像是在 Jupyter 環(huán)境中執(zhí)行一樣執(zhí)行。Colab notebook 顯示的結(jié)果也類似于我們在 Jupyter notebook 中所看到的那樣。

 

 

圖 10 程序運行的結(jié)果

PyCharm IDE

該程序可在 PyCharm IDE 環(huán)境中編譯,并在 PyCharm 上運行,也可以在 OSX 終端中執(zhí)行。

 

 

圖 11 PyCharm IDE 中 Python 自然語言處理中的 LSA 分析

在 OSX 終端中運行的結(jié)果

 

 

圖 12 在 OSX 終端中運行的結(jié)果

獨立運行的計算機中的 Jupyter Notebook

在本地機器上運行潛在語義分析的 Jupyter Notebook 給出了一個相似的輸出:

 

 

圖 13 在 Jupyter notebook 上運行潛在語義分析

 

 

圖 14 結(jié)果

參考文獻

Gorrell, G. (2006). Generalized Hebbian Algorithm for Incremental Singular Value Decomposition in Natural Language Processing. Retrieved from https://www.aclweb.org/anthology/E06-1013

Hardeniya, N. (2016). Natural Language Processing: Python and NLTK . Birmingham, England: Packt Publishing.

Landauer, T. K., Foltz, P. W., Laham, D., & University of Colorado at Boulder (1998). An Introduction to Latent Semantic Analysis. Retrieved from http://lsa.colorado.edu/papers/dp1.LSAintro.pdf

Stackoverflow (2018). Mounting Google Drive on Google Colab. Retrieved from https://stackoverflow.com/questions/50168315/mounting-google-drive-on-google-colab

Stanford University (2009). Matrix decompositions and latent semantic indexing. Retrieved from https://nlp.stanford.edu/IR-book/html/htmledition/matrix-decompositions-and-latent-semantic-indexing-1.html

原文鏈接:https://medium.com/datadriveninvestor/3-ways-to-apply-latent-semantic-analysis-on-large-corpus-text-on-macos-terminal-jupyterlab-colab-7b4dc3e1622

標簽: Google 代碼 網(wǎng)絡(luò)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:如何打造更加可靠、高效的儲能型數(shù)據(jù)中心

下一篇:Uber永久定位系統(tǒng)實時數(shù)據(jù)分析過程實踐!