中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

淺談搜索引擎預處理機制原理

2019-03-15    來源:gdwzjs.com

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

首先提前祝各同仁們happy new year,在即將迎來2011年的最后一天,利用這今年的最后一天,來給大家分享一個話題:關于搜索引擎預處理機制,可能一些seo新手對這個詞有點陌生,沒什么概念,其實很簡單,就是網(wǎng)站有千千萬,頁面達到億級別的,而搜索引擎卻能通過一個簡短的詞就能把搜索結果快速的傳遞到用戶面前,為什么這么快呢?難道真是它的電腦或者服務器很強嗎?其實它是采用了一種很巧妙的辦法,因為它先有預處理機制在里面,通過預處理之后才能快速的把用戶想要找的內(nèi)容呈現(xiàn)在他面前,那預處理包括哪些內(nèi)容呢,我們來簡單的跟大家說下:

一、提取文字

預處理要做的第一件事情就是抓取文字,在提取文字這一部分是非常關鍵的,意思也很簡單,因為文字一般都是有一個相關性的,就是把關鍵文字提取出來,提取的文字內(nèi)容有文本、meta標簽,這兩個是我們通過表面現(xiàn)象可以看得到的,另外還有關鍵和描述(這兩個需要通過頁面源代碼查看),還有alt屬性(alt屬性原本是看不到的,鼠標移上去會顯示)。還有文本,比如像做過flash站優(yōu)化的人知道,你可以將它的內(nèi)容提取出來,作為替代內(nèi)容,這些都是可以被搜索引擎識別的。

二、中文分詞

抓取好文字之后我們要進行中文分詞,也就是我們經(jīng)常提到的中文分詞技術,為了方便大家更好的理解,我們舉例來說,大家先打開baidu和goole,然后分別在里面搜索“夸張大千獎”,我們先看百度頁面的搜索情況:

通過上圖我們可以看到整個頁面的標紅的字體,我們可以明顯的看到“張大千”這三個字被擰出來了,總共五個字,因為張大千是個人名,所以它優(yōu)先被擰了出來,然后這個詞就變成三個詞組,分別是“夸”。“張大千”。“獎”。這是百度的分詞手法,我們再來看谷歌是怎么分的:

我們看第一條搜索結果,“夸張的圖,大千世界無奇不有啊”,為什么會這樣呢?其實谷歌和百度相比,它少了一個專有詞典,匹配方式不一樣,不同的搜索引擎,它的分詞規(guī)律不一樣,所以說針對不同搜索引擎關鍵詞優(yōu)化,我們應該要注意關鍵詞應該怎么寫會比較穩(wěn)妥?梢愿鶕(jù)自身情況,做谷歌要怎么寫,做百度又要怎么寫,而且我們要知道,我們?nèi)绾卫梅衷~技術來做到不管是關鍵詞還是內(nèi)容等等都可盡量匹配。如果連內(nèi)容都匹配不了,那關鍵詞又怎么能上去呢?

2、匹配方法

關于匹配方法我們簡單概括下:

A.正向匹配:因為我們一般的閱讀方式是從左往右,從左到右叫正向匹配,比如說“中華人民共和國成立于1949年”因為它是一個完整詞,如果是正向匹配,那么就應該這樣分:“中華”“人民”“共和”等。

B.逆向匹配:顧名思義,就是從后面往前匹配。

c.最大匹配:比如說“中華人民共和國成立于1949年”,如果是最大匹配的話,可以劃分成“中華人民共和國”為一個詞組,這就是最大匹配。

D.最小匹配:它就可是把“中華人民共和國”劃分成“中華”“人民”“”共和”“國”。這樣算起來總共有四種匹配方式:正向匹配、逆向匹配、最大匹配、最小匹配?梢詢蓛山Y合結合成“正向最大匹配”“正向最小匹配”“逆向最大匹配”“逆向最小匹配”,這是百度和谷歌通用的匹配方法。那說到這里,可能有人會問了:那我怎么知道它是給我正向匹配還是反向匹配等,其實我想說的是,這個沒有一個定死的規(guī)律的,我們只要記住一點:一個好的搜索引擎,在分詞系統(tǒng)關鍵就看兩點:

A:消除歧義能力,也就是說你搜了一個詞,搜索出來的結果更加精準、完整;

B:它是否能識別人名、地名和機構名,也就是一些未登陸的詞,比如比較流行的口頭語,搜索次數(shù)多了,它會進行一個統(tǒng)計,統(tǒng)計的結果和用戶想了解的內(nèi)容匹配度高,具備這兩點,就是好的分詞系統(tǒng)。

搜索引擎的分詞能讓我們的標題以及內(nèi)容相關性更高,和需要優(yōu)化的詞匹配度更高,這是分詞它所能承載的作用,不用的搜索引擎的分詞原理不一樣,所以需要我們更加系統(tǒng)的來學習,僅僅靠這篇文章是解釋不完的,關鍵是要有這個思路,結合這個思路去仔細觀察從而得出結論。

通過以上講解,大家是不是對索引引擎機制度和中文分詞是不是有了初步的了解了呢,今天就跟大家說到這里,再次祝你們新年快樂,想學更過seo知識請到(杭州seo www.gdwzjs.com)

標簽: 搜索優(yōu)化 關鍵詞優(yōu)化 搜索引擎分詞技術 

版權申明:本站文章部分自網(wǎng)絡,如有侵權,請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:淺談如何利用SEO來提升網(wǎng)站的排名

下一篇:淺談百度轉(zhuǎn)帖之輕松提高網(wǎng)站流量與外鏈