站長資訊平臺

翻頁式網(wǎng)頁搜索引擎是如何進行抓取的

2019-03-25 來源：木木SEO博客

Spider系統(tǒng)的目標就是發(fā)現(xiàn)并抓取互聯(lián)網(wǎng)中一切有價值的網(wǎng)頁，百度官方也明確表示蜘蛛只可以抓取到盡可能多的有價值資源并保持系統(tǒng)及實際環(huán)境中頁面的一致性同時不給網(wǎng)站體驗造成壓力，也就是說蜘蛛不會抓取所有網(wǎng)站的所有頁面，對此蜘蛛有很多的抓取策略來盡量快而全的發(fā)現(xiàn)資源鏈接，提高抓取效率。只有這樣蜘蛛才能盡量滿足絕大部分網(wǎng)站，這也是為什么我們要做好網(wǎng)站的鏈接結構，接下來筆者就只針對一種蜘蛛對翻頁式網(wǎng)頁的抓住機制來發(fā)表一點看法。

為什么需要這個抓取機制？

當前大多數(shù)網(wǎng)站都用翻頁的形式來有序分布網(wǎng)站資源，當有新文章增加時，老資源往后推移到翻頁系列中。對蜘蛛來說，這種特定類型的索引頁是爬行的有效渠道，但是蜘蛛爬行頻率和網(wǎng)站文章更新頻率不盡相同，文章鏈接很有可能就被推到翻頁條中，這樣蜘蛛不可能每天從第1個翻頁條爬到第80個，然后一個文章一個文章的抓取，到數(shù)據(jù)庫對比，這樣太浪費蜘蛛時間，也浪費你網(wǎng)站的收錄時間，所以蜘蛛需要對這種特殊類型的翻頁式網(wǎng)頁來一個額外的抓取機制，從而保證收錄資源的完全。

如何判斷是否是有序翻頁式頁面？　　

判斷文章是否按發(fā)布時間有序排布是這類頁面的一個必要條件，下面會說到。那么如何判斷資源是否按發(fā)布時間有序排布呢?有些頁面中每個文章鏈接后面跟隨著對應的發(fā)布時間，通過文章鏈接對應的時間集合，判斷時間集合是否按大到小或小到大排序，如果是的話，則說明網(wǎng)頁中的資源是按發(fā)布時間有序排布，反之亦然。就算沒寫發(fā)布時間，蜘蛛寫可以根據(jù)文章本身的實際發(fā)布時間進行判斷。

該抓取機制原理？

針對這種翻頁式頁面，蜘蛛主要是通過記錄每次抓取網(wǎng)頁發(fā)現(xiàn)的文章鏈接，然后將此次發(fā)現(xiàn)的文章鏈接與歷史上發(fā)現(xiàn)的鏈接作比較，如果有交集，說明該次抓取發(fā)現(xiàn)了所有的新增文章，可以停止對后面翻頁條的抓取了;否則，說明該次抓取并未發(fā)現(xiàn)所有的新增文章，需要繼續(xù)抓取下一頁甚至下幾頁來發(fā)現(xiàn)所有的新增文章。

聽起來可能有點不大懂，木木seo來舉個很簡單的例子，比如在網(wǎng)站翻頁目錄新添加了29篇文章，也就是說上次最新一篇是第30篇，而蜘蛛是一次性抓取10篇文章鏈接，這樣蜘蛛第一次進行抓取時抓了10篇，與上次并沒有交集，繼續(xù)抓取，第二次又抓10篇，也就是一共抓20篇了，還是與上一次沒有交集，然后繼續(xù)抓取，這一次就抓到了第30篇，也就是和上次的有交集了，這就說明蜘蛛已經(jīng)抓取了從上次抓取到這次網(wǎng)站更新的全部29篇文章。

建議

當前百度蜘蛛對網(wǎng)頁的類型，網(wǎng)頁中翻頁條的位置，翻頁條對應的鏈接，以及列表是否按照時間排序都會做相應的判斷，并根據(jù)實際的情況進行處理，但是蜘蛛畢竟不能做到100%的識別準確率，所以如果站長在做翻頁條時不要用JS，更不要用FALSH，同時要有頻率的進行文章更新，配合蜘蛛的抓取，這樣就可以極大地提高蜘蛛識別的準確率，從而提高蜘蛛在你網(wǎng)站的抓取效率。

再次提醒大家本文只是從蜘蛛一個抓取機制進行的解說，不代表蜘蛛就此一種抓取機制，在實際情況中是很多機制同時進行的。

作者：木木SEO http://blog.sina.com.cn/s/blog_c206a2c30101g88a.html

標簽：翻頁式抓取抓取策略

版權申明：本站文章部分自網(wǎng)絡，如有侵權，請聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點！
本站所提供的圖片等素材，版權歸原作者所有，如需使用，請與原作者聯(lián)系。

上一篇:做優(yōu)質(zhì)外鏈的方法

下一篇:2013網(wǎng)站SEO做外鏈的三大法寶

最新資訊

熱門推薦

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

翻頁式網(wǎng)頁搜索引擎是如何進行抓取的