網(wǎng)站日志文件分析分析方法精華版

2019-03-22 來源：tingnv.com

容器云強(qiáng)勢(shì)上線！快速搭建集群，上萬Linux鏡像隨意使用

通過分析網(wǎng)站日志Log文件我們可以看到用戶和搜索引擎蜘蛛訪問網(wǎng)站的行為數(shù)據(jù)，這些數(shù)據(jù)能讓我們分析出用戶和蜘蛛對(duì)網(wǎng)站的偏好以及網(wǎng)站的健康情況。在網(wǎng)站日志分析中，我們主要需要分析的是蜘蛛行為。

在蜘蛛爬取及收錄過程中，搜索引擎會(huì)給特定權(quán)重網(wǎng)站分配相應(yīng)的資源量。一個(gè)搜索引擎友好型的網(wǎng)站應(yīng)該充分利用這些資源，讓蜘蛛可以迅速、準(zhǔn)確、全面的爬取有價(jià)值、用戶喜歡的內(nèi)容，而不浪費(fèi)資源在無用的、訪問異常的內(nèi)容上。

但由于網(wǎng)站日志中數(shù)據(jù)量過大，所以我們一般需要借助網(wǎng)站日志分析工具來查看。常用的日志分析工具有：光年日志分析工具、web log exploer。

在分析日志時(shí)，對(duì)于單日日志文件我們需要分析的內(nèi)容有：訪問次數(shù)、停留時(shí)間、抓取量、目錄抓取統(tǒng)計(jì)、頁面抓取統(tǒng)計(jì)、蜘蛛訪問IP、HTTP狀態(tài)碼、蜘蛛活躍時(shí)段、蜘蛛爬取路徑等；對(duì)于多日日志文件我們需要分析的內(nèi)容有：蜘蛛訪問次數(shù)趨勢(shì)、停留時(shí)間趨勢(shì)、整體抓取趨勢(shì)、各目錄抓取趨勢(shì)、抓取時(shí)間段、蜘蛛活躍周期等。

下面我們來看看網(wǎng)站日志如何分析？

網(wǎng)站日志數(shù)據(jù)分析解讀：

1、訪問次數(shù)、停留時(shí)間、抓取量

從這三項(xiàng)數(shù)據(jù)中我們可以得知：平均每次抓取頁面數(shù)、單頁抓取停留時(shí)間和平均每次停留時(shí)間。

平均每次抓取頁面數(shù)=總抓取量/訪問次數(shù)

單頁抓取停留=每次停留/每次抓取

平均每次停留時(shí)間=總停留時(shí)間/訪問次數(shù)

從這些數(shù)據(jù)我們可以看出蜘蛛的活躍程度、親和程度、抓取深度等，總訪問次數(shù)、停留時(shí)間、抓取量越高、平均抓取頁面、平均停留時(shí)間，表明網(wǎng)站越受搜索引擎喜歡。而單頁抓取停留時(shí)間表明網(wǎng)站頁面訪問速度，時(shí)間越長，表明網(wǎng)站訪問速度越慢，對(duì)搜索引擎抓取收錄較不利，我們應(yīng)盡量提高網(wǎng)頁加載速度，減少單而立停留時(shí)間，讓爬蟲資源更多的去抓取收錄。

另外，根據(jù)這些數(shù)據(jù)我們還可以統(tǒng)計(jì)出一段時(shí)間內(nèi)，網(wǎng)站的整體趨勢(shì)表現(xiàn)，如：蜘蛛訪問次數(shù)趨勢(shì)、停留時(shí)間趨勢(shì)、抓取趨勢(shì)。

2、目錄抓取統(tǒng)計(jì)

通過日志分析我們可以看到網(wǎng)站哪些目錄受蜘蛛喜歡、抓取目錄深度、重要頁面目錄抓取狀況、無效頁面目錄抓取狀況等。通過對(duì)比目錄下頁面抓取及收錄情況，我們可以發(fā)現(xiàn)更多問題。對(duì)于重要目錄，我們需要通過內(nèi)外調(diào)整增加權(quán)重及爬取；對(duì)于無效頁面，在robots.txt中進(jìn)行屏蔽。

另外，通過多日日志統(tǒng)計(jì)，我們可以看到站內(nèi)外行為給目錄帶來的效果，優(yōu)化是否合理，是否達(dá)到了預(yù)期效果。對(duì)于同一目錄，以長期時(shí)間段來看，我們可以看到該目錄下頁面表現(xiàn)，根據(jù)行為推測(cè)表現(xiàn)的原因等。

3、頁面抓取

在網(wǎng)站日志分析中，我們可以看到具體被蜘蛛爬取的頁面。在這些頁面中，我們可以分析出蜘蛛爬取了哪些需要被禁止爬取的頁面、爬取了哪些無收錄價(jià)值頁面、爬取了哪些重復(fù)頁面url等，為充分利用蜘蛛資源我們需要將這些地址在robots.txt中禁止爬取。

另外，我們還可以分析未收錄頁面原因，對(duì)于新文章，是因?yàn)闆]有被爬取到而未收錄抑或爬取了但未放出。對(duì)于某些閱讀意義不大的頁面，可能我們需要它作為爬取通道，對(duì)于這些頁面，我們是否應(yīng)該做Noindex標(biāo)簽等。但從另一方面講，蜘蛛會(huì)弱智到靠這些無意義的通道頁爬取頁面嗎，蜘蛛不懂sitemap？【對(duì)此，筆者有疑惑，求分享經(jīng)驗(yàn)】

4、蜘蛛訪問IP

曾經(jīng)有人提出過通過蜘蛛的ip段來判斷網(wǎng)站的降權(quán)情況，笨鳥感覺這個(gè)意義不大，因?yàn)檫@個(gè)后知性太強(qiáng)了。而且降權(quán)更多應(yīng)該從前三項(xiàng)數(shù)據(jù)來判斷，用單單一個(gè)ip段來判斷意義不大。IP分析的更多用途應(yīng)該是判斷是否存在采集蜘蛛、假蜘蛛、惡意點(diǎn)擊蜘蛛等。

5、訪問狀態(tài)碼

蜘蛛經(jīng)常出現(xiàn)的狀態(tài)碼如301、404等，出現(xiàn)這些狀態(tài)碼要及時(shí)處理，以避免對(duì)網(wǎng)站造成壞的影響。

6、抓取時(shí)間段

通過分析對(duì)比多個(gè)單日蜘蛛小時(shí)爬取量，我們可以了解到特定蜘蛛對(duì)于本網(wǎng)站在特定時(shí)間的活躍時(shí)段。通過對(duì)比周數(shù)據(jù)，我們可以看到特定蜘蛛在一周中的活躍周期。了解這個(gè)，對(duì)于網(wǎng)站內(nèi)容更新時(shí)間有一定指導(dǎo)意義，而之前所謂小三大四等均為不科學(xué)說法。

7、蜘蛛爬取路徑

在網(wǎng)站日志中我們可以跟蹤到特定IP的訪問路徑，如果我們跟蹤特定蜘蛛的訪問路徑則能發(fā)現(xiàn)對(duì)于本網(wǎng)站結(jié)構(gòu)下蜘蛛的爬取路徑偏好。由此，我們可以適當(dāng)?shù)囊龑?dǎo)蜘蛛的爬取路徑，讓蜘蛛更多的爬取重要、有價(jià)值、新更新頁面。其中爬取路徑中我們雙可以分析頁面物理結(jié)構(gòu)路徑偏好以及url邏輯結(jié)構(gòu)爬取偏好。通過這些，可以讓我們從搜索引擎的視角去審視自己的網(wǎng)站。

文章來源：http://www.dzshuo.com，轉(zhuǎn)載請(qǐng)注明出處。

標(biāo)簽：網(wǎng)站日志網(wǎng)站分析網(wǎng)站數(shù)據(jù)

版權(quán)申明：本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請(qǐng)聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)！
本站所提供的圖片等素材，版權(quán)歸原作者所有，如需使用，請(qǐng)與原作者聯(lián)系。

上一篇:巧用百度百科引爆網(wǎng)站流量

下一篇:站長工具新功能之友鏈檢測(cè)升級(jí)

相關(guān)文章

最新資訊

熱門推薦

為學(xué)習(xí)和知識(shí)分享目的，本站文章部分自網(wǎng)絡(luò)，本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請(qǐng)聯(lián)系：2653426586@qq.com QQ：2653426586

如有其他需求，請(qǐng)聯(lián)系：2653426586@qq.com QQ：2653426586

友情鏈接：網(wǎng)絡(luò)安全運(yùn)維經(jīng)驗(yàn) IT技術(shù)分享運(yùn)維隨筆錄鮮花東郊到家往約到家

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

網(wǎng)站日志文件分析分析方法精華版