中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

百度VIP大講堂QA集錦:抓取、建庫(kù)、解析

2019-03-26    來(lái)源:站長(zhǎng)之家

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

編者按:《VIP大講堂》是百度站長(zhǎng)平臺(tái)于2014年為站長(zhǎng)們解答建站、運(yùn)營(yíng)等問(wèn)題而開設(shè)的講堂,僅VIP俱樂(lè)部成員可報(bào)名參加。通過(guò)《VIP大講堂》,站長(zhǎng)們可以從百度官方了解到最新的百度技術(shù)動(dòng)態(tài)、以及百度對(duì)待站點(diǎn)的態(tài)度等內(nèi)容,還可以學(xué)習(xí)到關(guān)于搜索引擎優(yōu)化、建站、內(nèi)容建設(shè)、安全等多方面的內(nèi)容。近日,百度站長(zhǎng)平臺(tái)發(fā)布了VIP大講堂上海站的QA內(nèi)容,主要包括Spider抓取、優(yōu)先建庫(kù)、以及網(wǎng)頁(yè)解析三個(gè)方面。

主要QA內(nèi)容如下:

問(wèn):為什么收錄量像坐過(guò)山車一樣的,還有為什么有些網(wǎng)頁(yè)今天在明天就沒(méi)了?

答:百度會(huì)周期建庫(kù),且每個(gè)庫(kù)的收錄量是恒定的,你老是有新增,肯定會(huì)再?gòu)膸?kù)里淘汰一些,反正總是保持那個(gè)庫(kù)是滿的。在建庫(kù)的過(guò)程中,你會(huì)感覺(jué)有波動(dòng)。具體的怎么篩,哪個(gè)頁(yè)面會(huì)留下哪個(gè)頁(yè)面會(huì)淘汰,這個(gè)策略是有很多的,他隨著時(shí)間的變化,收錄的標(biāo)準(zhǔn)策略也是在發(fā)生微調(diào)。

問(wèn):我們站點(diǎn)使用CDN加速會(huì)不會(huì)比較容易造成蜘蛛無(wú)法抓?因?yàn)橛袝r(shí)候修改掉他綁定的什么東西。

答:如果要修改掉一定要通知到上一級(jí),現(xiàn)在不存在這個(gè)問(wèn)題,現(xiàn)在你如果修改掉也可以解析掉,之前可能會(huì)存在這個(gè)問(wèn)題。

問(wèn):你們百度自己也有一個(gè)CDN加速,對(duì)抓錄排名有沒(méi)有影響?

答:在使用CDN加速這個(gè)問(wèn)題上,我們對(duì)所有站點(diǎn)一視同仁。但我建議你使用技術(shù)能力強(qiáng)的CDN服務(wù)商,保證站點(diǎn)的穩(wěn)定和速度,百度會(huì)更喜歡。

問(wèn):剛才您說(shuō)IP上的站點(diǎn)數(shù)不能太多,那CDN這種情況怎么辦?

答:CDN的情況另說(shuō),如果我們識(shí)別出來(lái)是CDN的話不會(huì)受站點(diǎn)數(shù)量的影響,如果你是提供獨(dú)立IP的話會(huì)有這樣一些問(wèn)題。

問(wèn):還是IP上站點(diǎn)數(shù)量的問(wèn)題,如果是主域跟二級(jí)域名呢?也受數(shù)量限制?

答:我說(shuō)的是獨(dú)立域名。當(dāng)然質(zhì)量比較好的二級(jí)域名也可以認(rèn)為是獨(dú)立域名。

問(wèn):多個(gè)域名,他有相同的一些內(nèi)容,怎么建庫(kù)?

答:如果是多域名在同一個(gè)主域下面有相同內(nèi)容的話,不可能所有都建庫(kù),而且被建庫(kù)的那個(gè)可能不是你希望的那個(gè),所以盡量不要有相同的內(nèi)容。

問(wèn):剛才講的IP如果是多域名的話,好幾百個(gè)IP域名,現(xiàn)在我們也用了CDN,按照剛才的說(shuō)法,單個(gè)IP最多抓多少?1000萬(wàn)是說(shuō)對(duì)站點(diǎn)還是對(duì)IP?

答:對(duì)IP,但1000萬(wàn)是我舉例,不是實(shí)際的數(shù)據(jù),這個(gè)數(shù)據(jù)不會(huì)分享出來(lái)的。

問(wèn):現(xiàn)在我的網(wǎng)站被很多蜘蛛爬,我想只讓百度蜘蛛爬,百度蜘蛛IP多少?能設(shè)白名單么?

答:百度蜘蛛IP是不斷變的,現(xiàn)在網(wǎng)上的確有一些白名單的說(shuō)法,暫時(shí)是有較的,但不保證今后不會(huì)變,所以建議站點(diǎn)還是通過(guò)ua進(jìn)行判斷,我們百度站長(zhǎng)平臺(tái)上有相關(guān)的文章,你可以找一下。

問(wèn):如果我寫robots只想禁掉動(dòng)態(tài)鏈接的話,會(huì)不會(huì)影響動(dòng)態(tài)參數(shù)前面正常鏈接的抓。

答:不會(huì)的,你原來(lái)的頁(yè)面還在,肯定會(huì)抓。

問(wèn):比如我們一個(gè)域名www.abcde.com,我們想把帶?號(hào)的url全部禁掉,首頁(yè)我們不要禁掉,怎么弄?

答:?前面有個(gè)*,后面再有個(gè)*就可以了。

問(wèn):我想了解,如果我現(xiàn)在收錄有5萬(wàn),大概多長(zhǎng)時(shí)間才能把我原來(lái)收錄5萬(wàn)重新抓取一遍?

答:不同站點(diǎn)不好說(shuō),一個(gè)是你站點(diǎn)做的很好,知名度很響更新很快質(zhì)量很好就會(huì)快;如果你的站點(diǎn)默默無(wú)聞,貢獻(xiàn)很少,可能就會(huì)很慢。

(接上個(gè)問(wèn)題)

問(wèn):就是差不多的情況,大概。

答:這個(gè)沒(méi)有人能估出來(lái)。

問(wèn):百度站長(zhǎng)平臺(tái)上有數(shù)據(jù)提交的工具,我們實(shí)時(shí)提交,你們也會(huì)實(shí)時(shí)抓取嗎?

答:不會(huì),他會(huì)有一層判斷,F(xiàn)在只是通知你提交成功,后面什么時(shí)候抓,什么時(shí)候建庫(kù)沒(méi)有,我們正在研究要不要把這個(gè)分享出來(lái)。

問(wèn):我網(wǎng)站有一些列表頁(yè),都沒(méi)有鏈接,擔(dān)心百度抓不到

答:現(xiàn)在百度站長(zhǎng)平臺(tái)的站內(nèi)搜索工具有一個(gè)綠色收錄通道,在那里提交種子頁(yè),我們就知道的。

(接上個(gè)問(wèn)題)

問(wèn):提交種子頁(yè)面必須要用站搜?

答:是的。

問(wèn):如果說(shuō)頁(yè)面里url特別多的話,蜘蛛會(huì)不會(huì)有選擇性的進(jìn)行抓取?

答:不會(huì),他都會(huì)一個(gè)不漏給你提出來(lái),但會(huì)把JS、CSS這樣的鏈接給過(guò)濾掉。但請(qǐng)注意,全部抓取過(guò)來(lái)之后會(huì)進(jìn)行篩選,并不是所有都會(huì)建庫(kù)。

問(wèn):現(xiàn)在很多網(wǎng)站都有自己的站內(nèi)搜索,都會(huì)產(chǎn)生站內(nèi)搜索結(jié)果頁(yè),百度不喜歡搜索結(jié)果頁(yè)的話,我們用這個(gè)會(huì)不會(huì)對(duì)我們有影響?只是不喜歡還是對(duì)我們網(wǎng)站會(huì)有懲罰

答:蜘蛛會(huì)去抓,抓完之后重要是提取里面的鏈接。如果只有一兩條這樣的頁(yè)面質(zhì)量不好問(wèn)題不大,如果整體質(zhì)量較差,有可能受到懲罰。

問(wèn):新出的時(shí)效性文章當(dāng)時(shí)沒(méi)有被收錄,后期是否還會(huì)被收錄?

答:會(huì)

問(wèn):站點(diǎn)每天最高爬蟲多少次?

答:這個(gè)其實(shí)說(shuō)不好,有的站點(diǎn)我們一天會(huì)抓一兩千萬(wàn),有的站點(diǎn)只抓幾個(gè)、幾十個(gè),看你的規(guī)模和質(zhì)量,而且這個(gè)抓取量也是會(huì)根據(jù)網(wǎng)站的情況進(jìn)行調(diào)整的。

問(wèn):我們的頁(yè)面本身就很大,會(huì)不會(huì)解析不出來(lái)?

答:頁(yè)面本身很大倒沒(méi)問(wèn)題,趕集、安居客這些量都很大,沒(méi)有問(wèn)題。我剛才說(shuō)的例子,你每次都follow出來(lái)新鏈接,隨機(jī)把后面的參數(shù)去掉都不影響這個(gè)網(wǎng)頁(yè)的正常訪問(wèn),這種肯定有問(wèn)題的。

問(wèn):剛才說(shuō)對(duì)URL的長(zhǎng)度有要求,那對(duì)每一段、就是目錄名的長(zhǎng)度有沒(méi)有要求

答:沒(méi)有要求,我們是要求url從www開始到結(jié)束,總長(zhǎng)度不超過(guò)1024個(gè)字節(jié)。

問(wèn):站內(nèi)重復(fù)內(nèi)容是怎么判斷的?文本內(nèi)容一樣結(jié)構(gòu)不一樣,算不算重復(fù)?

答:算重復(fù)

問(wèn):假設(shè)是整個(gè)頁(yè)面全是Flash,如果我把一些欄目或者最新的內(nèi)容隱藏掉,不影響美觀隱藏掉,如果用hidden屬性能不能提取出來(lái)?CSS可不可以?

答:hidden可以提出來(lái),但如果是注釋就不會(huì)管。CSS不可以。

問(wèn):頁(yè)面大小不超過(guò)1兆,是指頁(yè)面壓縮以前還是以后。

答:指頁(yè)面壓縮以后,不要超過(guò)1兆

問(wèn):我網(wǎng)站的信息已經(jīng)過(guò)時(shí)了,但網(wǎng)頁(yè)返回的是200,會(huì)受懲罰?為什么呀?

答:用戶在搜索結(jié)果里點(diǎn)了你的結(jié)果,導(dǎo)流導(dǎo)到你的網(wǎng)站,但沒(méi)什么可看的,對(duì)用戶沒(méi)有用,百度當(dāng)然不喜歡。

問(wèn):現(xiàn)在我們很多網(wǎng)站,為了讓用戶覺(jué)得有意思,內(nèi)容沒(méi)了就放一張圖片,寫一些有意思的話,什么“工程師去哪啦”之類的,對(duì)百度友好不?

答:最好不要用,我知道站點(diǎn)是想讓百度當(dāng)內(nèi)容死鏈來(lái)識(shí)別,但內(nèi)容死鏈識(shí)別起來(lái)是有準(zhǔn)確率和召回率風(fēng)險(xiǎn)的。

問(wèn):我們團(tuán)購(gòu)網(wǎng)站的確會(huì)有過(guò)期團(tuán)購(gòu)的頁(yè)面,會(huì)受懲罰嗎

答:如果量特別大、點(diǎn)擊量很大的話肯定會(huì)有懲罰的。有些可以當(dāng)內(nèi)容死鏈被分析出來(lái),如果分析不出來(lái),會(huì)被一些其他的策略挖出來(lái),會(huì)有這樣的問(wèn)題。

問(wèn):剛才說(shuō)資訊內(nèi)容頁(yè)面,上面有個(gè)發(fā)布時(shí)間好,那如果頁(yè)面上沒(méi)有時(shí)間呢?

答:那我們往往是按當(dāng)時(shí)抓取的時(shí)間來(lái)做判定。

問(wèn):評(píng)論里面時(shí)間重要嗎。

答:百度更重視主體內(nèi)容的時(shí)間,評(píng)論不算主體內(nèi)容。

問(wèn):我們是個(gè)平臺(tái),很多產(chǎn)品其實(shí)只是一個(gè)型號(hào)變更了,其實(shí)顏色都是一模一樣的,對(duì)蜘蛛而言僅僅只是幾個(gè)字符,會(huì)被識(shí)別為重復(fù)嗎

答:如果是一個(gè)產(chǎn)品的結(jié)構(gòu)化信息的話,應(yīng)該不會(huì)被認(rèn)為是重復(fù)。如果你是簡(jiǎn)單內(nèi)容摘要的方式進(jìn)行介紹的話,可能會(huì)存在重復(fù)問(wèn)題。

問(wèn):靜態(tài)URL和動(dòng)態(tài)URL區(qū)別大嗎?

答:不大,我們現(xiàn)在認(rèn)為靜態(tài)和動(dòng)態(tài)都一樣的,因?yàn)閺膗rl上面他能夠識(shí)別出來(lái),但是抓取回來(lái)的東西不太一樣。所以現(xiàn)在認(rèn)為無(wú)論你是靜態(tài)還是動(dòng)態(tài),我們都認(rèn)為同樣都是url來(lái)對(duì)待。

標(biāo)簽: 百度站長(zhǎng)平臺(tái) VIP大講堂 百度VIP大講堂 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:怎樣的外鏈才是對(duì)網(wǎng)站有價(jià)值的外鏈?

下一篇:簡(jiǎn)單有效!10步大幅提升網(wǎng)站可訪問(wèn)性