中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

robots.txt的規(guī)則誤區(qū)及百度和Google的robots工具的使用

2019-03-21    來源:逍遙博客

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

對于robots.txt文件對于網(wǎng)站的作用大家都知道,但是通過觀察發(fā)現(xiàn),有些朋友對于robots.txt文件的規(guī)則還是有一定的誤區(qū)。

比如有很多人這樣寫:

User-agent: *

Allow: /

Disallow: /mulu/

不知道大家有沒有看出來,這個規(guī)則其實是不起作用的,第一句Allow: / 指的是允許蜘蛛爬行所有內容,第二句Disallow: /mulu/指的是禁止/mulu/下面的所有內容。

表面上看這個規(guī)則想達到的目的是:允許蜘蛛爬行除了/mulu/之外的網(wǎng)站所有頁面。

但是搜索引擎蜘蛛執(zhí)行的規(guī)則是從上到下,這樣會造成第二句命令失效。

正確的規(guī)則應該是:

User-agent: *

Disallow: /mulu/

Allow: /

也就是先執(zhí)行禁止命令,再執(zhí)行允許命令,這樣就不會失效了。

另外對于百度蜘蛛來說,還有一個容易犯的錯誤,那就是Disallow命令和Allow命令之后要以斜杠/開頭,所以有些人這樣寫:Disallow: *.html 這樣對百度蜘蛛來說是錯誤的,應該寫成:Disallow: /*.html 。

有時候我們寫這些規(guī)則可能會有一些沒有注意到的問題,現(xiàn)在可以通過百度站長工具(zhanzhang.baidu.com)和Google站長工具來測試。

相對來說百度站長工具robots工具相對簡陋一些:

百度Robots工具只能檢測每一行命令是否符合語法規(guī)則,但是不檢測實際效果和抓取邏輯規(guī)則。

相對來說Google的Robots工具好用很多,如圖:

在谷歌站長工具里的名稱是抓取工具的權限,并報告Google抓取網(wǎng)站頁面的時候被攔截了多少個網(wǎng)址。

還可以在線測試Robots修改后的效果,當然這里的修改只是測試用,如果沒有問題了,可以生成robots.txt文件,或者把命令代碼復制到robots.txt文本文檔中,上傳到網(wǎng)站根目錄。

Google的測試跟百度有很大的區(qū)別,它可以讓你輸入某一個或者某些網(wǎng)址,測試Google蜘蛛是否抓取這些網(wǎng)址。

測試結果是這些網(wǎng)址被Google蜘蛛抓取的情況,這個測試對于Robots文件對某些特定url的規(guī)則是否有效。

而兩個工具結合起來當然更好了,這下應該徹底明白robots應該怎么寫了吧。

轉載請注明來自逍遙博客,本文地址:http://liboseo.com/1170.html,轉載請注明出處和鏈接!

標簽: robots.txt 百度站長工具 robots設置 

版權申明:本站文章部分自網(wǎng)絡,如有侵權,請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:談網(wǎng)頁新窗口打開和當前窗口打開的優(yōu)缺點

下一篇:如何打造合格的內部鏈接結構