分享搜索引擎預(yù)處理和中文分詞的秘密

2019-03-15 來源：落楓seo網(wǎng)易博客

容器云強(qiáng)勢(shì)上線！快速搭建集群，上萬Linux鏡像隨意使用

前面我們講個(gè)搜索引擎如何搜集網(wǎng)頁，今天說下第二個(gè)過程網(wǎng)頁預(yù)處理，其中中文分詞就顯得尤其重要，下面就詳細(xì)講解一下搜索引擎是怎么進(jìn)行網(wǎng)頁預(yù)處理的：

網(wǎng)頁預(yù)處理的第一步就是為原始網(wǎng)頁建立索引，有了索引就可以為搜索引擎提供網(wǎng)頁快照功能;接下來針對(duì)索引網(wǎng)頁庫進(jìn)行網(wǎng)頁切分，將每一篇網(wǎng)頁轉(zhuǎn)化為一組詞的集合;最后將網(wǎng)頁到索引詞的映射轉(zhuǎn)化為索引詞到網(wǎng)頁的映射，形成倒排文件（包括倒排表和索引詞表），同時(shí)將網(wǎng)頁中包含的不重復(fù)的索引詞匯聚成索引詞表。如下圖所示：

一個(gè)原始網(wǎng)頁庫由若干個(gè)記錄組成，每個(gè)記錄包括記錄頭部信息（HEAD）和數(shù)據(jù)（DATA），每個(gè)數(shù)據(jù)由網(wǎng)頁頭信息（header），網(wǎng)頁內(nèi)容信息（content）組成。索引網(wǎng)頁庫的任務(wù)就是完成給定一個(gè)URL，在原始網(wǎng)頁庫中定位到該URL所指向的記錄。

如下圖所示：

對(duì)索引網(wǎng)頁庫信息進(jìn)行預(yù)處理包括網(wǎng)頁分析和建立倒排文件索引兩個(gè)部分。中文自動(dòng)分詞是網(wǎng)頁分析的前提。文檔由被稱作特征項(xiàng)的索引詞（詞或者字）組成，網(wǎng)頁分析是將一個(gè)文檔表示為特征項(xiàng)的過程。在對(duì)中文文本進(jìn)行自動(dòng)分析前，先將整句切割成小的詞匯單元，即中文分詞（或中文切詞）。切詞軟件中使用的基本詞典包括詞條及其對(duì)應(yīng)詞頻。

自動(dòng)分詞的基本方法有兩種：基于字符串匹配的分詞方法和基于統(tǒng)計(jì)的分詞方法。

1）基于字符串匹配的分詞方法

這種方法又稱為機(jī)械分詞方法，它是按照一定的策略將待分析的漢字串與一個(gè)充分大的詞典中的詞條進(jìn)行匹配，若在詞典中找到某個(gè)字符串，則匹配成功（識(shí)別出一個(gè)詞）。

按照掃描方向的不同，串匹配分詞方法可以分為正向匹配和逆向匹配;按照不同長(zhǎng)度優(yōu)先匹配的情況，可以分為最大或最長(zhǎng)匹配，和最小或最短匹配;按照是否與詞性標(biāo)注過程相結(jié)合，又可以分為單純分詞方法和分詞與標(biāo)注相結(jié)合的一體化方法。常用的幾種機(jī)械分詞方法如下：

1. 正向最大匹配;

2. 逆向最大匹配;

3. 最少切分（使每一句中切出的詞數(shù)最�。�

還可以將正向最大匹配方法和逆向最大匹配方法結(jié)合起來構(gòu)成雙向匹配法。由于漢語單字成詞的特點(diǎn)，正向最小匹配和逆向最小匹配一般很少使用。一般說來，逆向匹配的切分精度略高于正向匹配，遇到的歧義現(xiàn)象也較少。

對(duì)于機(jī)械分詞方法，可模型化表示為ASM（d，a，m），即 Automatic Segmentation Model。其中，

d：匹配方向，+表示正向，-表示逆向;

a：每次匹配失敗后增加或減少字串長(zhǎng)度（字符數(shù)），+為增字，-為減字;

m：最大或最小匹配標(biāo)志，+為最大匹配，-為最小匹配。

例如，ASM（+， -， +）就是正向減字最大匹配法（Maximum Match based approach，MM），ASM（-， -， +）就是逆向減字最大匹配法（簡(jiǎn)記為RMM方法）。

2）基于統(tǒng)計(jì)的分詞方法

從形式上看，詞是穩(wěn)定的字的組合，因此上下文中，相鄰的字同時(shí)出現(xiàn)的次數(shù)越多，就越有可能構(gòu)成一個(gè)詞。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映成詞的可信度。

可以對(duì)語料中相鄰共現(xiàn)的各個(gè)字的組合的頻度進(jìn)行統(tǒng)計(jì)，計(jì)算它們的互現(xiàn)信息。

互現(xiàn)信息體現(xiàn)類漢字之間結(jié)合關(guān)系的緊密程度。當(dāng)緊密程度高于某一個(gè)閾值時(shí)，便可認(rèn)為此字組可能構(gòu)成了一個(gè)詞。這種方法只需對(duì)語料中的字組頻度進(jìn)行統(tǒng)計(jì)，不需要切分詞典，因而又叫做無詞典分詞法或統(tǒng)計(jì)取詞方法。

實(shí)際應(yīng)用的統(tǒng)計(jì)分詞系統(tǒng)都要使用一部基本的分詞詞典（常用詞詞典）進(jìn)行串匹配分詞，同時(shí)使用統(tǒng)計(jì)方法識(shí)別一些新的詞，即將串頻統(tǒng)計(jì)和串匹配結(jié)合起來，既發(fā)揮匹配分詞切分速度快、效率高的特點(diǎn)，又利用了無詞典分詞結(jié)合上下文識(shí)別生詞、自動(dòng)消除歧義的優(yōu)點(diǎn)。

標(biāo)簽：網(wǎng)站優(yōu)化中文分詞搜索引擎預(yù)處理

版權(quán)申明：本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請(qǐng)聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)！
本站所提供的圖片等素材，版權(quán)歸原作者所有，如需使用，請(qǐng)與原作者聯(lián)系。

上一篇:網(wǎng)站推廣法寶重點(diǎn)是貴在堅(jiān)持

下一篇:李皓：SEO讓我懂得的道理

相關(guān)文章

最新資訊

熱門推薦

為學(xué)習(xí)和知識(shí)分享目的，本站文章部分自網(wǎng)絡(luò)，本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請(qǐng)聯(lián)系：2653426586@qq.com QQ：2653426586

如有其他需求，請(qǐng)聯(lián)系：2653426586@qq.com QQ：2653426586

友情鏈接：網(wǎng)絡(luò)安全運(yùn)維經(jīng)驗(yàn) IT技術(shù)分享運(yùn)維隨筆錄鮮花東郊到家往約到家

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

分享搜索引擎預(yù)處理和中文分詞的秘密