站長資訊平臺

數據造假、爬蟲與反爬蟲戰(zhàn)爭暴露出哪些行業(yè)現狀？

2018-11-02 來源：raincent

一、馬蜂窩“造假門”事件所暴露的行業(yè)潛規(guī)則

上周，估值據傳已高達25億美元、新一輪融資接近尾聲的明星獨角獸公司馬蜂窩陷入了數據造假丑聞。一個由3名年輕海龜組成不足1年、名不見經傳的乎睿數據把馬蜂窩涉嫌數據造假的行為逐條拎出來在社交媒體上傳播。根據乎睿數據團隊提供的信息，馬蜂窩2100萬條真實點評中，有1800萬條是通過機器人抄襲自點評、攜程等競爭對手;其在馬蜂窩上發(fā)現了7454個抄襲賬號，平均每個賬號從攜程、藝龍、美團、Agoda、Yelp上抄襲搬運了數千條點評，占到馬蜂窩官網聲稱總點評數的85%。而馬蜂窩則發(fā)表聲明稱乎睿數據“歪曲事實”，屬于“有組織攻擊行為”，已起訴該公司并獲得立案。同時，乎睿數據回應，目前已掌握大量證據，期待法院作出的公正裁決，因為“這個案子最終將決定未來中國二十年的互聯網走向”。

本次事件的雙方你來我往數個回合，一個認為自己鐵證如山，一個咬定“明顯抹黑”，唯獨真正的“受害者”——被“抄襲”了數據的攜程、去哪兒等企業(yè)集體陷入沉默。因為當前數據造假、爬蟲刷屏是司空見慣的行為，已成為互聯網行業(yè)的客觀現狀，攜程、去哪兒自身的用戶點評數據來源都難以解釋清楚。目前，案件最終結果尚未定論，但司法界人士認為，馬蜂窩訴乎睿數據的案子具有典型意義。該案件一方面反應了當下企業(yè)對于大數據基礎性資源的激烈爭奪，另一方面也暴露出我國在數據權責安全相關的法制法規(guī)建設上亟待加強。

二、“潛規(guī)則”背后的技術：網絡爬蟲與反爬蟲

1、網絡爬蟲技術

爬蟲最早源于搜索引擎，它是一種按照一定的規(guī)則，自動從互聯網上抓取信息的程序，又被稱為爬蟲，網絡機器人等。按爬蟲功能可以分為網絡爬蟲和接口爬蟲，按授權情況可以分為合法爬蟲和惡意爬蟲。如今數據資源越來越珍貴，利用爬蟲技術爬取有價值的數據，成為很多公司彌補自身先天數據短板、提高自身估值的不二選擇。

針對此次馬蜂窩事件，很多開發(fā)者承認，從其他網站或APP上抓取點評數據非常簡單，在技術上沒有任何難度，隨便一個爬蟲工程師就可以做到。有的開發(fā)者說，“不涉及到數據庫，直接爬頁面就行了”、“可以批量處理，通常是機器+人工編輯”。

很多人好奇報道中稱馬蜂窩2100萬條“真實點評”中，有1800萬條都是通過機器人從競品網站抄襲過來的，究竟是如何做到的。邦盛科技機器防御專家在接受媒體采訪時說，目前平臺均是通過網絡機器人技術從其他網站爬取信息，并抄襲到自己的平臺。當前大部分的網絡機器人是通過直接發(fā)起http請求的方式獲取網頁資源，無js引擎，會進行一定的偽裝，并使用動態(tài)IP來躲避反爬蟲措施。隨著網站防護能力的不斷提升，網絡爬蟲會逐漸向瀏覽器內核型進化，從而具備執(zhí)行js的能力，并進一步的擬人化，增加被識別的難度。

目前，爬蟲技術已經遍布網絡，并且越是涉及個人切身利益的地方，越是布滿了爬蟲。

根據之前國外網絡安全公司的研究報告，50%左右的網絡流量來自網絡機器人，遍布各類網站，包括出行、社交、OTA、電商、招聘、銀行、政府等。

例如出行類中的12306票務信息被各類搶票軟件瘋狂地爬取，高峰時刻每天的訪問量達到千億次。在社交類中，通過網絡爬蟲技術可以指揮一幫網絡機器人關注某人的微博、公眾號等，進行點贊、關注或者留言，制造大量的僵尸粉。在電商類中，比如在“比價平臺”“聚合電商”和“返利平臺”等平臺上，當用戶搜索一個商品時，這類聚合平臺會自動把各個電商的商品都放在你面前供你選擇，同樣利用的是爬蟲技術。

此外，馬蜂窩所在的OTA領域同樣也是爬蟲重災區(qū)。某大型互聯網公司運營總監(jiān)表示，盡管不知道馬蜂窩被指控的刷評行為是否屬實，但業(yè)內出現刷評行為的根本原因是出于競爭壓力，是幾家在線旅游網站出于對UGC(用戶生成內容)市場的爭奪，以及維護平臺活躍度的需要。

一位從事搜索引擎開發(fā)的創(chuàng)業(yè)者表示，從其他平臺抓數據的目的，就是為了制造流量很大的假象，但爬蟲抓數據的行為很容易識別，就看資本方盡調的時候是否嚴格。

2、反爬蟲技術

爬蟲與反爬蟲領域，一直是互聯網最激烈的對抗戰(zhàn)場之一。

目前，企業(yè)經典的對抗方式大概有幾種：圖片驗證碼、滑塊驗證、封禁 IP、給訪問者增加一些加解密運算，耗費爬蟲的程序資源等等。除了這些小模塊，企業(yè)還可以通過 WAF(Web 應用防火墻)來防護，WAF的功能就是通過設置一些規(guī)則，攔截掉那些不符合規(guī)則的請求。

不過，隨著爬蟲技術的演進，常規(guī)的反爬蟲手段已經無法有效阻止爬蟲的訪問。

據安全專家介紹，近年來通過多維度、多層次的檢測，并輔以后端大數據分析來識別網絡機器人逐漸興起并成為主流。利用設備指紋技術從設備維度定位網絡機器人，人機識別技術從操作行為判別機器人點擊和自動化點擊，而后端大數據實時分析技術可根據長周期數據進行復雜規(guī)則決策。綜合以上手段，可有效偵測爬蟲行為，保護網站的信息資產不被爬取和泄露。

此外，人工智能技術的加入讓這場對抗爬蟲的常規(guī)戰(zhàn)逐漸升級為“智能戰(zhàn)”，而且戰(zhàn)線向云端轉移。

此前，騰訊云鼎實驗室通過深度學習技術對海量真實惡意爬蟲流量進行分析，認為將 AI 技術引入反爬蟲領域能起到極好的補充效果，將是未來此類對抗領域的趨勢所在。目前，騰訊云網站管家(WAF)聯合云鼎實驗室基于海量真實爬蟲流量建立更為通用的爬蟲識別模型，已卓有成效。除了騰訊云，還有很多其他的云安全廠商，也開始主推反爬蟲的技術。

三、如何解決行業(yè)數據造假的普遍現狀?

事實上，任何新技術在引導行業(yè)變革時，由于自由發(fā)展，最開始都會出現一片亂象。唯有相關法律法規(guī)的健全，才會對所有從業(yè)者行為有所規(guī)范，才會對行業(yè)的健康發(fā)展保駕護航。

目前，國家并沒有一項明確法律條文規(guī)定爬蟲刷屏是否違法。不過，由于搜索引擎的存在，所以爬取已經允許公開的數據應該是合法的。搜索引擎領域一直遵守的是Robots協議。搜索引擎的原理是通過一種爬蟲spider程序，自動搜集互聯網上的網頁并獲取相關信息。而鑒于網絡安全與隱私的考慮，每個網站都會設置自己的Robots協議，來明示搜索引擎，哪些內容是愿意和允許被搜索引擎收錄的，哪些則不允許。搜索引擎則會按照Robots協議給予的權限進行抓取。Robots協議代表了一種契約精神，互聯網企業(yè)只有遵守這一規(guī)則，才能保證網站及用戶的隱私數據不被侵犯。

針對此次馬蜂窩事件，法律專家認為，如果平臺方未經允許把其他平臺的客戶評論扒來進行商業(yè)化運營，這顯然是違法行為。

一方面，內容的作者是用戶，發(fā)表在平臺上就構成了平臺的一部分。大量使用其他平臺未獲授權的內容，而且還有競爭關系，就構成了對其他平臺的侵害，這違反了《反不正當競爭法》的第二條：經營者在生產經營活動中，應當遵循自愿、平等、公平、誠信的原則，遵守法律和商業(yè)道德。

另一方面，發(fā)布大量虛假信息，誤導消費者，又違反了《消費者權益保護法》中關于消費者知情權的規(guī)定。該權益在一般情況下可由消費者協會或者是工商管理部門來代替消費者行使，可以依據相關規(guī)定對企業(yè)進行查處。

另外，我們還能通過類似的事件來發(fā)現司法判決的要旨。2016年一審宣判的“大眾點評訴百度案”中，大眾點評以百度公司大量抄襲、復制自己點評信息的不正當競爭行為，向上海浦東新區(qū)法院提起訴訟。

根據判決書，法院在百度行為是否具有不正當性的分析中提到，點評信息是核心資源之一，具有商業(yè)價值。“百度未對大眾點評網中的點評信息作出貢獻，卻在百度地圖和百度知道中大量使用，其行為具有明顯的’搭便車’、’不勞而獲’的特點。”最終判定結果，可想而知是大眾點評勝訴，百度違反公認的商業(yè)道德和誠實信用原則，給大眾點評造成了實質損害，構成不正當競爭。2017年，百度的上訴被駁回，維持了原判。

回看此次馬蜂窩事件，如果案情最終能促使相關法律法規(guī)得以補充完善，該事件確實將如乎睿數據所說的振奮人心：“這個案子最終將決定未來中國二十年的互聯網走向”。

四、爬蟲集中所在地，最能反映社會問題

在這張爬蟲光顧top50公司排行榜里，除了google、Youtube、ask、亞洲航空這四家企業(yè)之外，其他全是中國企業(yè)或機關。

細看此圖，我們會非常輕易地找到這些企業(yè)或機關上榜原因。或許是因為國內東西地域發(fā)展不平衡、城鄉(xiāng)貧富懸殊太大、公共假期設置不合理等諸多原因，讓很多漂泊在外工作的人逢年過節(jié)買票回家成為難題，這才把12306推上爬蟲榜第一名;或許是我們的信用體系還不是很完善，騙子和老賴還可以繼續(xù)蒙騙新人，所以才催生了爬蟲收集法院公告，形成民間信用記錄的服務，于是將“最高人民法院公告查詢”推上第八名;此外，由于良好的醫(yī)療資源分布不均導致的掛號難、看病難問題，催生的黃牛用爬蟲搶號現象問題有多么嚴峻，也在此表中有所表現。

爬蟲是趨利的，而爬蟲覺得有利益的地方，往往是我們不忍提及的隱痛。自不用說那些虛假廣告、沖榜刷量，背后都有爬蟲的影子。當一個行業(yè)中所有人都在彼此心照不宣地爬取數據以作商用時，我們無法因此斷言爬蟲技術有罪或者無罪。真正該反省的，或許應該是制度是否合理、價值觀是否正確才對。

標簽： Google 安全大數據大數據分析大數據基礎大型互聯網公司電商防火墻互聯網互聯網公司互聯網企業(yè) 互聯網行業(yè) 開發(fā)者媒體權限數據分析數據

版權申明：本站文章部分自網絡，如有侵權，請聯系：west999com@outlook.com
特別注意：本站所有轉載文章言論不代表本站觀點！
本站所提供的圖片等素材，版權歸原作者所有，如需使用，請與原作者聯系。

上一篇:超級大匯總！200多個最好的機器學習、NLP和Python教程

下一篇:怎樣更換UPS蓄電池

最新資訊

熱門推薦

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

數據造假、爬蟲與反爬蟲戰(zhàn)爭暴露出哪些行業(yè)現狀？

數據造假、爬蟲與反爬蟲戰(zhàn)爭暴露出哪些行業(yè)現狀？