中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

搜索引擎中的web數(shù)據(jù)挖掘

2019-12-03    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

來源:DataFun社區(qū) 作者:沐沐老師

今天為大家分享的是搜索引擎中的 web 數(shù)據(jù)挖掘。首先介紹下搜索引擎。實際上,我們每天都會使用的搜索引擎,我們會輸入關鍵詞 query 和需求,搜索引擎會根據(jù)算法將于 query 最相關且最權威的結果呈現(xiàn)給用戶。

 

 

搜索引擎有 3 個核心部分:

第一:理解用戶行為,從最初文字輸入到語音和圖片輸入。

第二:收錄并分析互聯(lián)網(wǎng)數(shù)據(jù)。

第三:將用戶行為與數(shù)據(jù)建立聯(lián)系,為用戶推薦結果。

 

 

今天主要介紹第二部分內(nèi)容:互聯(lián)網(wǎng) web 數(shù)據(jù)分析技術。首先看一下 web 數(shù)據(jù)挖掘與收錄系統(tǒng),也就是 spider 系統(tǒng)。Spider 系統(tǒng)是比較成熟的技術, 目標是:快速、全面、準確的收錄并分析網(wǎng)頁數(shù)據(jù), 一般全網(wǎng)搜索引擎類似 google、百度、搜狗的 spider 系統(tǒng),每日調(diào)度 10 億級鏈接,Spider 數(shù)據(jù)庫存儲千億級網(wǎng)頁與萬億級鏈接。我們可以認為 spider 系統(tǒng)是一個環(huán)狀的系統(tǒng),從鏈接數(shù)據(jù)庫開始,經(jīng)過相關算法:如鏈接調(diào)度與篩選相關算法,對周期內(nèi)需要調(diào)度的鏈接進行抓取,然后發(fā)給抓取器,進行網(wǎng)頁的下載和渲染。然后輸入到數(shù)據(jù)挖掘與計算系統(tǒng)中,對內(nèi)容進行提取,將網(wǎng)頁中的內(nèi)容保存到內(nèi)容數(shù)據(jù)庫,鏈接保存到鏈接數(shù)據(jù)庫中。我們今天的重點是網(wǎng)頁下載之后,網(wǎng)頁相關的一些數(shù)據(jù)挖掘算法。

 

 

首先我們看一個例子,互聯(lián)網(wǎng)用戶會瀏覽新聞、微博等各式各樣的網(wǎng)頁。我們觀察一下網(wǎng)頁,思考兩個問題,第一個問題,在你觀察的網(wǎng)頁有什么特征及內(nèi)容。第二個問題,從整體看來,這是怎樣的網(wǎng)頁,如何描述這個網(wǎng)頁。具體的分析如下:

 

 

 

 

Web 分析技術最核心是對網(wǎng)頁特征提取,比如:導航、標題、時間、主圖等等。網(wǎng)頁內(nèi)部特征是數(shù)據(jù)引擎進行排序時用到的關鍵特征。例如在排序中,時間特征也比較關鍵,將實效性高且相關網(wǎng)頁排在前面。除內(nèi)部特征之外,還有網(wǎng)頁整體特征。我們會用到一些分類和自然語言處理的技術,剛才的例子就是一個新聞網(wǎng)頁,內(nèi)容是科技相關的。會同時計算語義特征和結構特征,例如主圖、排版、文本段落等。

 

 

Web 數(shù)據(jù)挖掘中,需要計算并提取網(wǎng)頁的百余個網(wǎng)頁屬性字段,在此之中會使用一些技術,如機器學習的分類、聚類、回歸、自然語言處理、規(guī)則聚合、主題模型等等。最終的目標是充分的理解網(wǎng)頁,為搜索引擎排序提供準確的網(wǎng)頁屬性。

 

 

網(wǎng)頁分析用到了許多基礎的算法和數(shù)據(jù)結構。獲取網(wǎng)頁屬性,需要用很多模型計算相應的字段,低層需要構造很多數(shù)據(jù)結構。了解網(wǎng)頁首先需要建立一個 html 樹的結構。在這個數(shù)據(jù)結構中, 如圖藍色的代表標簽節(jié)點,綠色代表文本節(jié)點。文本節(jié)點是 html 的內(nèi)容,內(nèi)容可以展示在瀏覽器中。在分析過程中,一些內(nèi)容比較關鍵,如標題、超鏈接與文本內(nèi)容等相關重要字段。

 

 

下面介紹頁面分析的一個算法:我們希望充分的理解網(wǎng)頁, 在此過程中, 我們可以通過算法劃分出不同的區(qū)域。如劃分為上下左右區(qū)域,根據(jù)不同的區(qū)域提取字段,最終可以對網(wǎng)頁進行更深層次的理解,比如說主體邊框、標題、關鍵內(nèi)容識別理解。

 

 

在將網(wǎng)頁劃分為不同區(qū)域的過程中, 需要用到較多的數(shù)據(jù)結構。例如:依賴 HTML 樹構建統(tǒng)計樹。所謂統(tǒng)計樹就是在建立了 HTML 樹之后,對樹節(jié)點增加統(tǒng)計屬性,例如坐標、寬高、樣式等等基礎信息。往往在識別節(jié)點類型(正文節(jié)點、圖片節(jié)點)時,這些基本信息可以幫我們排除沒有意義的節(jié)點。

 

 

在構造樹的過程中,會對節(jié)點的特征進行計算,例如節(jié)點的面積、顏色等。依賴這些節(jié)點特征對節(jié)點進行分類標記。例如說網(wǎng)頁的布局節(jié)點,js 節(jié)點,這些具有對應的特征屬性,基于此對網(wǎng)頁進行分類。分類之后將樹形的節(jié)點轉化成數(shù)組的形式,方便后續(xù)分析。

 

 

如左圖,該網(wǎng)頁包含 body 主體,布局節(jié)點從上到下一次排開。同樣在右圖的統(tǒng)計樹上,根節(jié)點就是 body 節(jié)點,下面的四個子節(jié)點代表網(wǎng)頁塊元素。在統(tǒng)計樹上進行層次遍歷,以保留有效布局結構節(jié)點,將樹縮減為一個更加簡單的樹。在遍歷過程中,需要算法來計算節(jié)點的排列順序。例如根節(jié)點下有 4 個子節(jié)點,分別代表網(wǎng)頁中的不同布局塊。左圖四個布局塊是從上到下的排列方式,在右圖中會根據(jù)深度進行標記。

 

 

構造完結構樹之后,還會對樹進行變換:節(jié)點刪除,節(jié)點壓縮。左圖網(wǎng)頁中橙色的節(jié)點,對于表示頁面意義不大,原因是:根節(jié)點下的子節(jié)點都是從上到下排列的,橙色節(jié)點的子節(jié)點排序順序相同,因此可以對橙色節(jié)點刪除,將其子節(jié)點上移。

 

 

總結:為網(wǎng)頁劃分區(qū)域,為構造平面數(shù)據(jù)結構做準備。我們從 html tree 做了許多化簡得到 layout tree,根據(jù) layout tree 計算區(qū)域,從而得到多個分區(qū)。

 

 

如何根據(jù) layout tree 劃分平面,劃分思想就是構造劃分平面的容器(類比與 c++ 中的 vector)。 我們按廣度優(yōu)先遍歷 layout tree,來判斷節(jié)點是否可以放入到容器中?梢允褂靡(guī)則或者機器學習模型來進行判斷。如圖中黃框的節(jié)點,面積比較小,寬比高的值較大,且包含一些語義信息:導航等,就可判斷節(jié)點屬于上區(qū)域容器中。但是 5 號節(jié)點面積較大, 判斷為上區(qū)域是不合適的。那么上區(qū)域容器收集完成了。所以 5 號節(jié)點會在下一層進行相應的劃分。也可以通過分類模型來判斷是否要放入到容器中。

 

 

完成平面構造之后,可以利用它們對網(wǎng)頁中元素提取。例如圖中在提取評論內(nèi)容,訓練一個評論塊識別模型,就可以從不同網(wǎng)頁中,商品、新聞等網(wǎng)頁中提取評論內(nèi)容。

 

 

最后介紹網(wǎng)頁分類,這是一個比較通用技術,無論是結構分類還是語義分類思路是比較類似的。例如對網(wǎng)頁分類,就是對提取網(wǎng)頁的特征向量(如圖片數(shù)量,鏈接數(shù)量等等統(tǒng)計信息),利用有監(jiān)督的機器學習模型(如隨機森林、邏輯回歸等)進行訓練,識別網(wǎng)頁類型。一般的網(wǎng)頁分類系統(tǒng)是多個二分類模型疊加在一起的。例如有多個模型:娛樂,體育新聞等,最終我們會對這些模型結果串聯(lián)到一起,這樣每個類型相互沒有依賴,升級迭代比較方便。

原文鏈接:

https://mp.weixin.qq.com/s/-VAE-QeiykYwwAmf0q9NhQ

標簽: 數(shù)據(jù)挖掘

版權申明:本站文章部分自網(wǎng)絡,如有侵權,請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:政府數(shù)據(jù)向社會開放不能成為一種“放之四海皆準”的工具

下一篇:在時間關系數(shù)據(jù)上AutoML:一個新的前沿