中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

分享搜索引擎預(yù)處理和中文分詞的秘密

2019-03-15    來源:落楓seo網(wǎng)易博客

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬Linux鏡像隨意使用

前面我們講個(gè)搜索引擎如何搜集網(wǎng)頁,今天說下第二個(gè)過程網(wǎng)頁預(yù)處理,其中中文分詞就顯得尤其重要,下面就詳細(xì)講解一下搜索引擎是怎么進(jìn)行網(wǎng)頁預(yù)處理的:

網(wǎng)頁預(yù)處理的第一步就是為原始網(wǎng)頁建立索引,有了索引就可以為搜索引擎提供網(wǎng)頁快照功能;接下來針對(duì)索引網(wǎng)頁庫進(jìn)行網(wǎng)頁切分,將每一篇網(wǎng)頁轉(zhuǎn)化為一組詞的集合;最后將網(wǎng)頁到索引詞的映射轉(zhuǎn)化為索引詞到網(wǎng)頁的映射,形成倒排文件(包括倒排表和索引詞表),同時(shí)將網(wǎng)頁中包含的不重復(fù)的索引詞匯聚成索引詞表。如下圖所示:

 

一個(gè)原始網(wǎng)頁庫由若干個(gè)記錄組成,每個(gè)記錄包括記錄頭部信息(HEAD)和數(shù)據(jù)(DATA),每個(gè)數(shù)據(jù)由網(wǎng)頁頭信息(header),網(wǎng)頁內(nèi)容信息(content)組成。索引網(wǎng)頁庫的任務(wù)就是完成給定一個(gè)URL,在原始網(wǎng)頁庫中定位到該URL所指向的記錄。

如下圖所示:

 

對(duì)索引網(wǎng)頁庫信息進(jìn)行預(yù)處理包括網(wǎng)頁分析和建立倒排文件索引兩個(gè)部分。中文自動(dòng)分詞是網(wǎng)頁分析的前提。文檔由被稱作特征項(xiàng)的索引詞(詞或者字)組成,網(wǎng)頁分析是將一個(gè)文檔表示為特征項(xiàng)的過程。在對(duì)中文文本進(jìn)行自動(dòng)分析前,先將整句切割成小的詞匯單元,即中文分詞(或中文切詞)。切詞軟件中使用的基本詞典包括詞條及其對(duì)應(yīng)詞頻。

自動(dòng)分詞的基本方法有兩種:基于字符串匹配的分詞方法和基于統(tǒng)計(jì)的分詞方法。

1) 基于字符串匹配的分詞方法

這種方法又稱為機(jī)械分詞方法,它是按照一定的策略將待分析的漢字串與一個(gè)充分大的詞典中的詞條進(jìn)行匹配,若在詞典中找到某個(gè)字符串,則匹配成功(識(shí)別出一個(gè)詞)。

按照掃描方向的不同,串匹配分詞方法可以分為正向匹配和逆向匹配;按照不同長(zhǎng)度優(yōu)先匹配的情況,可以分為最大或最長(zhǎng)匹配,和最小或最短匹配;按照是否與詞性標(biāo)注過程相結(jié)合,又可以分為單純分詞方法和分詞與標(biāo)注相結(jié)合的一體化方法。常用的幾種機(jī)械分詞方法如下:

1. 正向最大匹配;

2. 逆向最大匹配;

3. 最少切分(使每一句中切出的詞數(shù)最。

還可以將正向最大匹配方法和逆向最大匹配方法結(jié)合起來構(gòu)成雙向匹配法。由于漢語單字成詞的特點(diǎn),正向最小匹配和逆向最小匹配一般很少使用。一般說來,逆向匹配的切分精度略高于正向匹配,遇到的歧義現(xiàn)象也較少。

對(duì)于機(jī)械分詞方法,可模型化表示為ASM(d,a,m),即 Automatic Segmentation Model。其中,

d:匹配方向,+表示正向,-表示逆向;

a:每次匹配失敗后增加或減少字串長(zhǎng)度(字符數(shù)),+為增字,-為減字;

m:最大或最小匹配標(biāo)志,+為最大匹配,-為最小匹配。

例如,ASM(+, -, +)就是正向減字最大匹配法(Maximum Match based approach,MM),ASM(-, -, +)就是逆向減字最大匹配法(簡(jiǎn)記為RMM方法)。

2)基于統(tǒng)計(jì)的分詞方法

從形式上看,詞是穩(wěn)定的字的組合,因此上下文中,相鄰的字同時(shí)出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個(gè)詞。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映成詞的可信度。

可以對(duì)語料中相鄰共現(xiàn)的各個(gè)字的組合的頻度進(jìn)行統(tǒng)計(jì),計(jì)算它們的互現(xiàn)信息。

互現(xiàn)信息體現(xiàn)類漢字之間結(jié)合關(guān)系的緊密程度。當(dāng)緊密程度高于某一個(gè)閾值時(shí),便可認(rèn)為此字組可能構(gòu)成了一個(gè)詞。這種方法只需對(duì)語料中的字組頻度進(jìn)行統(tǒng)計(jì),不需要切分詞典,因而又叫做無詞典分詞法或統(tǒng)計(jì)取詞方法。

實(shí)際應(yīng)用的統(tǒng)計(jì)分詞系統(tǒng)都要使用一部基本的分詞詞典(常用詞詞典)進(jìn)行串匹配分詞,同時(shí)使用統(tǒng)計(jì)方法識(shí)別一些新的詞,即將串頻統(tǒng)計(jì)和串匹配結(jié)合起來,既發(fā)揮匹配分詞切分速度快、效率高的特點(diǎn),又利用了無詞典分詞結(jié)合上下文識(shí)別生詞、自動(dòng)消除歧義的優(yōu)點(diǎn)。

標(biāo)簽: 網(wǎng)站優(yōu)化 中文分詞 搜索引擎預(yù)處理 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:網(wǎng)站推廣法寶重點(diǎn)是貴在堅(jiān)持

下一篇:李皓:SEO讓我懂得的道理