淺析“Twitter技術(shù)問題” 解密網(wǎng)站動蕩真相
2019-03-18 來源:seo0359.com

眾所周知,twitter在前段時間,PR值由9降到了0,并且眾多頁面不被谷歌Robot抓取,眾人嘩然!雖然現(xiàn)在已經(jīng)恢復(fù)。但是這是怎么回事呢?獨孤依風(fēng)引用谷奧的內(nèi)容為大家解密下twitter網(wǎng)站動蕩真相!
首先,Twitter PR及眾多頁面不被抓取是由自身技術(shù)引起的,跟谷歌的搜索機(jī)制沒有關(guān)系。
導(dǎo)致twitter此次動蕩的有五大技術(shù)問題:
(1)robots設(shè)置問題
twitter在設(shè)置Robots時,針對帶WWW和不帶WWW設(shè)置了兩個Robots標(biāo)準(zhǔn)。如下所示:(A為不帶www的Robots設(shè)置,B為帶WWW的Robots設(shè)置)
A:The file at twitter.com/robots.txt looks as follows:
#Google Search Engine Robot
User-agent:Googlebot
# Crawl-delay: 10 -- Googlebot ignores crawl-delay ftl
Allow: /*?*_escaped_fragment_
Disallow: /*?
Disallow: /*/with_friends
#Yahoo! Search Engine Robot
User-Agent: Slurp
Crawl-delay:1
Disallow: /*?
Disallow: /*/with_friends
#Microsoft Search Engine Robot
User-Agent:msnbot
Disallow:/*?
Disallow:/*/with_friends
# Every bot that might possibly read and respect this file.
User-agent:*
Disallow:/*?
Disallow:/*/with_friends
Disallow:/oauth
Disallow:/1/oauth
B:the file at www.twitter.com/robots.txt file looks as follows:
User-agent:*
Disallow:/
twitter針對帶www和不帶www設(shè)置了兩個不同的Robots標(biāo)準(zhǔn),這樣就可以看出:
1、針對帶WWW和不帶WWW的網(wǎng)站,搜索引擎按照Robots標(biāo)準(zhǔn),返回的搜索結(jié)果不相同,同時也不規(guī)范。
2、twitter在阻止搜索引擎抓取帶WWW的網(wǎng)址。
3、通過封鎖帶www的網(wǎng)站,即使將其301重定向到不帶www的網(wǎng)站,那也是徒勞無功!
4、由于帶www和不帶www的都有外部鏈接,但是帶www的阻止搜索引擎抓取,那么對于提升twitter網(wǎng)站整體權(quán)重來說,該外部鏈接的價值并沒有得到有效利用!
(2)302重定向問題
twitter.com / vanessafox使用了302重定向到twitter.com /#!/ vanessafox。眾所周知,302重定向為暫時性轉(zhuǎn)移,會抓取新內(nèi)容而保存舊網(wǎng)址,并且原來的鏈接不會全部轉(zhuǎn)移!
(3)沒有遵守谷歌AJAX抓取標(biāo)準(zhǔn)
Twitter的網(wǎng)址是AJAX和使用#!,告訴谷歌從服務(wù)器獲取_escaped_fragment_版本的URL。由于沒有使用301重定向,導(dǎo)致失去了很多相關(guān)URL頁面,沒有將AJAX和重定向很好地結(jié)合起來。
(4)速率限制
在HTTP標(biāo)頭可以看見速率限制。
HTTP/1.1 200 OKDate:Mon,18 Jul 2011 20:48:44 GMTServer:hiStatus:200 OKX-Transaction:1311022124-32783-45463X-RateLimit-Limit:1000
(5)網(wǎng)址不規(guī)范
twitter.com / VanessaFox顯示搜索結(jié)果,是twitter.com / vanessafox。這兩個URL導(dǎo)致了同一個地方。這是造成又一次的PageRank稀釋,重復(fù),和規(guī)范化問題。這里最好的辦法是正;木W(wǎng)址一個變化(最簡單的方法是選擇全部小寫),然后301重定向所有變化。另外,Twitter的可以簡單地添加的rel =規(guī)范屬性指定規(guī)范版本的所有網(wǎng)頁 。
從以上可以看出,Twitter是有麻煩的robots.txt,HTTP狀態(tài)代碼和URL規(guī)范化。這是很多大型網(wǎng)站面臨的問題。至于谷歌PR工具欄是否刷新,那是谷歌的問題。
從Twitter技術(shù)漏洞可以告誡各位站長:
(1)設(shè)置Robots一定要統(tǒng)一,集中權(quán)重,以防走失。(2)302重定向沒有301重定向好(3)必須遵守谷歌AJAX抓取標(biāo)準(zhǔn)(4)不要在HTTP標(biāo)頭限制速率(5)網(wǎng)址要規(guī)范,統(tǒng)一,不能摻雜在一起隨意亂用!
來文首發(fā)于獨孤依風(fēng)seo中心(www.seo0359.com) 站長獨孤依風(fēng)原創(chuàng)!如若轉(zhuǎn)載,請保留原文鏈接地址!互聯(lián)網(wǎng)精英第一群:76933546,誠邀廣大知名站長加入!
標(biāo)簽: Twitter技術(shù) robots設(shè)置 302重定向
版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。
下一篇:SEO之美