中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

大數(shù)據(jù)背后,是誰在監(jiān)視我們的生活?

2018-06-23    來源:

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

 

一個安卓App開發(fā)者曾經(jīng)試圖跟女朋友解釋自己近乎無所不能的工作:在App安裝后,他能夠獲得大量授權(quán),推斷數(shù)據(jù)里的人群做什么工作、常去哪里、畢業(yè)于什么學(xué)校、有什么愛好、有沒有結(jié)婚、有沒有外遇、有沒有房、有沒有車、現(xiàn)在是外出度假還是在家待著,甚至通過讀取銀行通知短信,推測實際收入。有時候為了客戶需要,他還得推測人心,排除偽君子,比如如果手機里下載高端財經(jīng)App,打開頻率卻幾乎為零,那么這個人的標(biāo)簽要么是不小心下錯了軟件,要么就是‘比較裝’??

來源:人物

文丨李斐然

編輯丨趙涵漠

我們的故事

北京城里有許多故事不為人所知,一個最容易被人忽視的真相是,在這里,總有人比你更了解自己。周一早高峰時間擠在地鐵里刷財經(jīng)新聞的一些人,會在周五下班路上收到系統(tǒng)為他們推送的八卦新聞,因為算法知道這是他們此刻最想看到的內(nèi)容。做人臉識別的公司知道我們每天晚上什么時間卸妝,什么時候敷面膜,周末早上賴床到幾點,因為在這些時候,人臉識別通過率會驟然變低。

在真實世界里,性別只分男和女,但是原阿里巴巴集團副總裁車品覺說,阿里巴巴曾經(jīng)就有18個性別標(biāo)簽,它知道有些賬號白天是男性用戶持有,而晚上使用的卻是女性。判斷依據(jù)是用戶資料、瀏覽商品類目、對話使用稱謂,以及那些我們自己或許都未曾察覺的訪問習(xí)慣——點擊屏幕的輕重,經(jīng)常輸錯的錯別字,在瀏覽器窗口是喜歡在新窗口打開、還是反復(fù)使用前進后退鍵,正是它們告訴機器,此刻對著屏幕滑動商品頁面的究竟是誰。

大數(shù)據(jù)里的我們,擁有異常真實的群體畫像。因為我們在面對手機的時候非常誠實,永遠對它說真話。

世界上知道這些秘密的只有你,和機器另一端的數(shù)據(jù)科學(xué)家。在機器語言里,我們不止是一個名字、一個地址、一串設(shè)備識別符。它每秒鐘監(jiān)測超過400個變量,記錄每一個行為軌跡。

今年57歲的韋思岸(AndreasWeigend)知道無數(shù)這樣的故事。他出生在德國,原本在赫赫有名的歐洲粒子物理研究所(CERN)研究上帝粒子,但在2002年,他選擇投身大數(shù)據(jù)世界,成為了亞馬遜首席科學(xué)家,后來他曾任阿里巴巴數(shù)據(jù)顧問、人人網(wǎng)早期外部投資人,也曾為摩根大通、湯森路透、沃爾瑪、AT&T等機構(gòu)提供數(shù)據(jù)咨詢。

他教會機器一個理解人類的方法是:獲知一個用戶地址后,還要抓取這個地址周圍5公里內(nèi)的書店分布狀況,因為這決定了用戶有多大概率在亞馬遜買書、會在什么情況下買書。這條準(zhǔn)則后來被應(yīng)用到了阿里巴巴的數(shù)據(jù)分析實踐,所以當(dāng)淘寶知道你家5分鐘步行路程內(nèi)有超市的時候,它就不會頻繁向你推薦油鹽醬醋,但是它看到你的搜索記錄,獲知你皮膚敏感,而15分鐘路程內(nèi)的商場都沒有你習(xí)慣用的護膚品,那么,這些商品將會出現(xiàn)在你的屏幕上。

韋思岸將數(shù)據(jù)分析師每天的工作形容為‘人性實驗’,就像科學(xué)家通過實驗探索物質(zhì)的本質(zhì),數(shù)據(jù)分析師通過程序研究人的行為特征。技術(shù)改變了人的物理概念。定義我們的不僅僅是賬戶和密碼,還有我們的愛好、情緒、行為習(xí)慣。不管我們在互聯(lián)網(wǎng)上如何偽裝,換新的名字、新的頭像,機器總能輕易識破。數(shù)據(jù)記錄下的習(xí)慣,是我們的另一個身份定義。

這些故事讓他興奮,同時讓他感到不安,韋思岸告訴《人物》,‘我能看到最近十幾年我們的生活因為技術(shù)發(fā)生了顛覆性變革。但是它真的讓我們變得更自在嗎?我沒有答案。’

在數(shù)據(jù)的世界里,我們面對手機的每一個舉動,都在成為機器學(xué)習(xí)的材料,訓(xùn)練人工智能更加理解人性。曾經(jīng)那些高深玄奧的人生命題——我們是誰?好朋友意味著什么?我們將會選擇什么樣的生活——這些答案都可以從搜索記錄、社交網(wǎng)絡(luò)的聊天記錄和手機傳感器里找到。

截止2018年第一季度,超過10億人每月使用微信及WeChat,6.17億人在淘寶購物,全國搜索引擎用戶達6.4億,他們時刻創(chuàng)造新的海量數(shù)據(jù),也在被勾畫著異常精準(zhǔn)的群體畫像,機器在一步步接近一張清晰的人性圖景。數(shù)據(jù)是這個時代最特別的商品,它的產(chǎn)生幾乎毫無成本,卻造就了無數(shù)科技獨角獸、日漸強大的上市公司,以及數(shù)以億計的產(chǎn)業(yè)利益。

大數(shù)據(jù)日漸了解我們,但是很少人知道,我們所做的事情會讓我們成為廣告主的商品、被人剖析個性的樣本、掌握我們的一舉一動,甚至能預(yù)測我們的未來軌跡。

 

 

‘隱私’

不止一位數(shù)據(jù)科學(xué)家確信,隱私已經(jīng)是一件‘算法上不成立’的事件。我們知道自己在分享數(shù)據(jù),但是大部分人并不知道,自己正在分享些什么,更不知道,這種分享將會意味著什么。

聽一個分析師講述數(shù)據(jù)挖掘過程,就像是見證了一場懸疑推理,唯獨這一次,福爾摩斯活在大數(shù)據(jù)里。一切從手機App安裝軟件中的SDK開始,這是一個搭載在App中的軟件開發(fā)工具包,其中嵌入了統(tǒng)計分析工具,實時收集用戶信息。當(dāng)然,這是經(jīng)過你授權(quán)同意的,就在你可能從來沒有認真讀完的用戶協(xié)議里。

從App下載到手機那一刻起,揣測人生的嘗試就開始了。僅僅是安裝過程中所抓取的硬件設(shè)備信息,App已經(jīng)對你有了一個大概印象——如果一臺手機一個月內(nèi)有10次連接同一個星巴克的WIFI,20次連接同一個定位在寫字樓的公共區(qū)域WIFI,30次連接一個家庭WIFI,再算上這些WIFI的地理位置,以及WIFI名里的關(guān)鍵詞,那么,一條幾近清晰的生活——工作的路線軌跡,get。

在學(xué)者的論文里,這被形容為一個‘數(shù)據(jù)失控’的時代,沒有人能控制自己的數(shù)據(jù),我們的數(shù)據(jù)時刻被人監(jiān)視。

不過,實際經(jīng)手數(shù)據(jù)的人并沒有這種感覺。人們擔(dān)憂自己的個人信息泄露,比如姓名、電話、地址。在業(yè)界,工程師給隱私下過一個最簡單的定義——隱私,就是那些不允許自由流動的數(shù)據(jù),比如被法律禁止交易的身份證號、個人征信、醫(yī)療記錄,它們只能固定儲存,不允許隨意讀取。事實上,現(xiàn)在App收集信息也確實越來越受到限制,比如IOS10以后的系統(tǒng)已經(jīng)禁止讀取許多設(shè)備硬件信息,安卓系統(tǒng)也在逐步限制軟件能夠獲取的用戶信息范圍。

不過對公司來說,以上這些信息固然重要,但更值錢的是另一些數(shù)據(jù)——你的喜好、興趣、生活方式、行為習(xí)慣——而這些數(shù)據(jù)在很多人的概念里,還不屬于隱私。

‘大數(shù)據(jù)能做很多事情,通過合理分析解釋世界。最好的事是,這些東西完全不觸及隱私。’大河在一家公司的數(shù)據(jù)相關(guān)部門工作,她認為,隱私是法律明令禁止收集和交易的身份證號、手機號、戶籍地址等個人身份信息,而她的工作完美避開了它們。‘剛剛分析的這些畫像,我根本不知道他是誰,我看到的只是設(shè)備。比如我能看到一個在回龍觀的安卓設(shè)備,早上9點去了望京晚上9點又回來了。他的軌跡我都知道,但是我并不知道他是誰。所以它又能匿名,又很精準(zhǔn)。’

一個不愿意署名的數(shù)據(jù)工程師說,要說有問題,是那些私下倒賣個人身份信息的黑市有問題,20塊錢買一個人的征信報告,幾百塊錢就能買高凈值人群打包數(shù)據(jù),這些跟社會信息相關(guān)的是隱私,需要管。但是互聯(lián)網(wǎng)公司收集的都是‘淺層信息’,這沒關(guān)系。

小喬曾經(jīng)在一家以‘大數(shù)據(jù)分析’為主力業(yè)務(wù)的互聯(lián)網(wǎng)公司工作,她的工作就是利用公司通過大數(shù)據(jù)得到的用戶畫像,組織線下營銷活動。她說,自己并不那么擔(dān)心習(xí)慣被人察覺,因為在她的經(jīng)歷里,好多都是‘忽悠人用的,又不準(zhǔn),怕什么’?特別是在北上廣,每個人都那么不一樣,用戶畫像根本行不通,也就在三四線城市,弄個噱頭忽悠一下人。

‘(我們)什么信息都能得到,但是沒什么用,也懶得看。’一個不愿署名的程序員這樣說,‘互聯(lián)網(wǎng)公司讓你感到害怕,只是因為你在App里,沒有掩飾你是什么樣的人,而App把這些看在眼里——你不會出柜,但會偷偷在淘寶上搜索潤滑劑;你不會跟人說葷段子,但App上看到翹臀美女還是會點進去;你對外痛擊侵犯版權(quán),但看到四位數(shù)價格的正版軟件,還是去搜了盜版的下載??’

實實在在的人民幣

對于掌握海量用戶數(shù)據(jù)的大公司,真實的人性畫像等于錢,因為他們能找到非常精準(zhǔn)的目標(biāo)用戶,比如商家想要賣一款針對5歲以下孩子的推車,他們就可以提供‘家里有5歲以下孩子、訂單中卻未發(fā)生過此類母嬰商品購買行為’的用戶群。他們將海量用戶喜好、興趣、習(xí)慣等數(shù)據(jù)組建成數(shù)據(jù)庫,這樣向品牌商和廣告主推銷:這些消費者數(shù)據(jù)也是一種資產(chǎn),你知道他們習(xí)慣買什么、什么時候想買,它能如預(yù)知未來一樣,直觀看到未來可能收割的營業(yè)額,不是某種估計的指標(biāo)或指數(shù),而是‘實實在在的人民幣’。

這大概是廣告主最喜歡的時代。Facebook曾推出一項行之有效的算法lookalike。比方說,一家公司想賣啤酒,它只需要提供100個曾經(jīng)購買過這款酒的用戶群體,數(shù)據(jù)會將它們視為種子用戶,尋找和種子用戶相似的另外500個人。他們有相似的興趣愛好,相似的行為習(xí)慣,他們可能并沒有買過啤酒,但是基于他們的行為特征相似性,該相似群體極有可能在推送后馬上得到轉(zhuǎn)化,買下這款啤酒。

并非所有人都對這些‘隱私’的開放無感。武山在一家行業(yè)排名很高的互聯(lián)網(wǎng)公司工作,利用大數(shù)據(jù)進行算法推薦。每天在工作的時候,他能夠看到全體用戶在App上的行為軌跡信息,包括電話、地址、搜索記錄、每一屏交互行為等等。這是他的工作內(nèi)容,可是他說,這也讓他不安。

‘雖然都說數(shù)據(jù)開放、數(shù)據(jù)開放,但還是覺得,這些數(shù)據(jù)真是太開放了,沒有做好保護啊!比如內(nèi)部員工可以查到用戶在App上的行為習(xí)慣啊,還有App收集用戶信息的時候,哪些該收集,哪些不該收集,在我看來也算隱私啊,應(yīng)該有一些機制保護吧?’武山說,‘可我不知道有沒有行業(yè)標(biāo)準(zhǔn),現(xiàn)在我是全靠自律的。就是如果我想看,我隨便都能看到啊!’

據(jù)《財經(jīng)》此前的報道,國內(nèi)個人信息泄露數(shù)達55.3億條,平均每個人有四條相關(guān)個人信息泄露,這些信息最終在黑市反復(fù)倒手,直至被榨干價值。其中,80%的數(shù)據(jù)泄露來自企業(yè)內(nèi)鬼,黑客僅占20%。去年6月,廣東蒼南警方發(fā)布通報,有蘋果公司國內(nèi)員工涉嫌以非法手段獲取蘋果手機關(guān)聯(lián)的個人信息,包括用戶注冊蘋果賬戶時所填個人信息,涉案22人中有20人在蘋果國內(nèi)直銷公司及蘋果外包公司工作,每條以10元到180元不等的價格出售,非法倒賣個人信息至少20多萬條。

就在不久前,一名Facebook安全工程師被解雇,因為在網(wǎng)上搭訕女性的時候吹噓,自己能夠看到所有人的信息,‘我是一個專業(yè)的跟蹤狂’。而一位豆瓣用戶則發(fā)文稱,與前男友分手后遭到持續(xù)跟蹤騷擾,前男友利用某電商App登錄漏洞,查到了她家人、閨蜜、朋友的姓名、住址、電話,可是即便經(jīng)過投訴,最終也沒有阻止跟蹤狂的持續(xù)登錄。

現(xiàn)在,買東西需要填個注冊表,或者下載新App后需要關(guān)聯(lián)用戶信息,都會讓武山不舒服。他說,這可能是他的‘職業(yè)病’。

在互聯(lián)網(wǎng)上,韋思岸做過的最瘋狂的人性實驗,是關(guān)于自己的。從2006年開始,他主動將自己所有聯(lián)系信息公布在自己的網(wǎng)站上。在那里,任何人都可以看到他的實時地址、電話、郵箱、行程、工作日程、即將搭乘的航班號及座位號。他公布了自己在舊金山和上海的住址,精確到樓層房間號。

這和他的父親的經(jīng)歷有關(guān)。韋思岸的父親因為被誣陷是間諜,曾被強行關(guān)進監(jiān)獄,坐了六年牢。后來,韋思岸查閱父親的個人檔案時,意外地發(fā)現(xiàn),即便父親出獄后,安全部還在持續(xù)監(jiān)視他,還給身為兒子的自己建了檔案,收集信息。

這個經(jīng)歷極大影響了他的數(shù)據(jù)觀,‘我們不能抱著一個天真浪漫的觀點,還以為我們能夠擁有隱私。我見過數(shù)據(jù)是怎么對待我的父親的,我的父母曾經(jīng)一度一無所有,我們不應(yīng)該天真地以為,一切不會再重現(xiàn)。’

‘我把聯(lián)系方式放在網(wǎng)上,可要是讓我公布我的搜索記錄,我絕對不愿意。’他說,某種程度上來說,電話號或者住址并不是私密信息,你的朋友知道,你的同事也可能知道,但搜索記錄中所透露出的個人喜好、習(xí)慣,則是非常私密的個人信息。

一個安卓App開發(fā)者曾經(jīng)試圖跟女朋友解釋自己近乎無所不能的工作:在App安裝后,他能夠獲得大量授權(quán),推斷數(shù)據(jù)里的人群做什么工作、常去哪里、畢業(yè)于什么學(xué)校、有什么愛好、有沒有結(jié)婚、有沒有外遇、有沒有房、有沒有車、現(xiàn)在是外出度假還是在家呆著,甚至通過讀取銀行通知短信,推測實際收入。有時候為了客戶需要,他還得推測人心,排除偽君子,比如如果手機里下載高端財經(jīng)App,打開頻率卻幾乎為零,那么這個人的標(biāo)簽要么是不小心下錯了軟件,要么就是‘比較裝’??

這些推測并不完全準(zhǔn)確,也沒有涉及身份信息,卻已經(jīng)讓身為普通用戶的女朋友感到冒犯,沖他大發(fā)脾氣:‘你這人怎么這樣?你為什么要看我們這么多數(shù)據(jù)啊?誰叫你拿這些授權(quán)的?是你老板逼你這么干的嗎?’

對抗

在技術(shù)的世界里,邊界是最難討論清楚的話題。大部分公司都在反復(fù)強調(diào),我們雖然收集大量數(shù)據(jù),但是十分重視隱私,絕對不會泄露你的名字。事實上,許多大公司的確是這樣做的,它們內(nèi)部有非常嚴格的數(shù)據(jù)保護措施,比如微信有比較復(fù)雜的ID體系,系統(tǒng)內(nèi)部有用戶的唯一ID標(biāo)識,但是第三方開發(fā)者不能獲得這個唯一ID,即便是同一個用戶,在不同公眾號下被第三方開發(fā)者收集到的ID都是完全不一樣的,這樣就完全阻止公眾號之間用戶數(shù)據(jù)的隨意買賣交易。

負責(zé)用戶挖掘的微信斑馬系統(tǒng)只支持一萬人以上的人群畫像分析,從而實現(xiàn)‘分析一群人而不分析一個人’,而在分析過程中也會主動控制精度,比如分析用戶住址時,只定位到小區(qū),不再基于氣壓傳感器定位高度,做樓棟和樓層的定位。

在一次媒體采訪會上,阿里巴巴的一個技術(shù)負責(zé)人說:‘數(shù)據(jù)肯定是往越來越嚴控的方向發(fā)展,我們采集信息的目的,其實還是為了更好地提升用戶體驗,所以一個基本原則是,這些信息的獲取要從提升產(chǎn)品的角度出發(fā)。’比如對有的App來說,獲取WIFI信息是為了挖掘用戶社交關(guān)系,這讓人感覺越界,但是對金融、支付類的App來說,知道WIFI地址可以快速判斷這是不是用戶常用地址,這筆交易有沒有可能是盜刷,它能有效防范資金風(fēng)險。

不過,雖然花了兩個小時反復(fù)解釋現(xiàn)有隱私保護如何嚴格,臨走的時候,他還是忍不住補了一句:‘不過啊,最近網(wǎng)上那種做個心理測試啊,點進圖片生成自己的照片啊那種,我勸大家還是不要點了,那種背后一般都存在很大的信息收集的。’

這種看似無害的休閑App可能不會直接竊取手機號、身份證號等身份信息,但就在點擊授權(quán)、進入游戲的那一瞬間,它很容易完全獲得你的社交關(guān)系和網(wǎng)絡(luò)行為習(xí)慣。今年3月份,F(xiàn)acebook被爆隱私丑聞,存在影響8700萬人的嚴重數(shù)據(jù)隱私濫用,這些數(shù)據(jù)包括用戶的社交關(guān)系、興趣偏好、點贊記錄等個人信息,而這一切就是從類似的心理測試開始的。劍橋分析公司通過左右這些用戶在Facebook收到的推送,影響他們在美國大選中對候選人的態(tài)度,最終幫助特朗普當(dāng)選,這些數(shù)據(jù)也‘不知道被復(fù)制了多少次’,甚至有可能存儲在俄羅斯。

并不是沒有技術(shù)辦法對抗這樣的數(shù)據(jù)危機。在英國,有專門保護個人隱私的公共機構(gòu),直接向英國國會報告。它提出了數(shù)據(jù)管理者登記制度,要求每個處理個人信息的機構(gòu)都要在信息專員辦公室登記,否則就算為刑事犯罪。很多公司也有謹慎的數(shù)據(jù)使用哲學(xué)。谷歌會把用戶的姓名、賬號、聯(lián)系方式、地址等信息,與行為數(shù)據(jù)完全分開,不會將兩者關(guān)聯(lián)使用。而雅虎會有專門的研究員,在實踐中界定數(shù)據(jù)搜集的隱私邊界。

許多數(shù)據(jù)科學(xué)家將自己設(shè)計的隱私保護對策詳細公布在論文中,有人將分散信息流控制和差分隱私保護技術(shù)應(yīng)用到云計算,還有人通過模糊處理(obfuscation)技術(shù)對用戶隱私全程加密,另一種有效的操作方法是制造噪聲,根據(jù)用戶歷史記錄制造等比例的行為噪音,這樣試圖解讀用戶行為的服務(wù)商就很難辨別哪個是用戶真實需求,哪個是系統(tǒng)制造的噪音,從而保護用戶真實的隱私。

但是,在真實的大數(shù)據(jù)前線,還輪不上這些對策上場,仗已經(jīng)敗了。技術(shù)理想的敵人其實比想象中更原始——嚴謹規(guī)則背后,不講規(guī)則的人。

程路從美國留學(xué)回來后,在國內(nèi)一家交友類社交平臺工作,負責(zé)大數(shù)據(jù)處理。運營的同事要做市場推廣活動,要看用戶數(shù)據(jù),他想看用戶最近在聊什么,然后根據(jù)用戶喜好有針對性地開展活動。‘理論上講,這也是業(yè)務(wù)需求,他想抽樣,我也不介意。’程路說,聊天記錄經(jīng)過加密處理,他很快做了抽樣,斷裂可追溯信息,對用戶信息做了脫敏。但是運營同事不愿意,他要求看全量數(shù)據(jù)。

全量數(shù)據(jù)是什么概念?它是一個用戶在App上的所有數(shù)據(jù),能夠非常精準(zhǔn)地描述用戶,他的身份背景、興趣愛好、行為習(xí)慣,甚至每天的喜怒哀樂,都能從行為痕跡里推測出來,但是這是對隱私的極大挑戰(zhàn)。程路試著跟對方解釋,只是做市場推廣的話,使用脫敏后的抽樣樣本就可以了,沒有必要查看全量數(shù)據(jù)。

但意外的是,這個提議沒有得到理解。運營的人不同意,公司CTO不同意,連CEO也不同意。他的一個同行說,‘我挺驚訝的,做這一行的還有這種想法。’而另一個同行評價他,‘心態(tài)這么不穩(wěn),怎么在中國生活?如果知道自己的房子、車子、保險、信用卡、婚戀、酒店入住、戶籍信息、工作信息等等全部真實的信息每天都在各個公司的銷售那里買賣轉(zhuǎn)手百來次,你還會有什么感想?毫無心理波動。’

可是,這對程路來說,違背了自己的技術(shù)理想。‘這就好像借著你的手,把別人的日記挨頁翻給人看一樣。’他反問,‘要是你的日記,你愿意嗎?’

最后,決定數(shù)據(jù)命運的是來自CEO輕描淡寫的評論,‘這有啥啊,你就給他唄!’

程路把全量數(shù)據(jù)給了業(yè)務(wù)部門,同一個禮拜,他辭職了,‘一半的原因是這件事吧,道不同了。’在這里,他還時不時要面對數(shù)據(jù)交易,會有大公司的銷售人員拿著報價表找他談合作,表單上每一類用戶群體都有一個大概標(biāo)價,愛旅游的、每天點外賣的、打游戲時長每天超過4小時的,每一個群體都有一批相對應(yīng)的廣告主喜歡。所以,只要細化出了用戶特征,就能有機會把它賣錢,這是一筆大生意,但這讓他感到很不舒服。

現(xiàn)在,他在一家外資游戲公司,選擇新工作有很多理由,其中一個考慮,現(xiàn)在的大環(huán)境里很難找到一個不越界的公司,那就找個沒那么強烈想要收集社交數(shù)據(jù)的地方。他說,這樣工作起來心里會舒服點。

韋思岸說,對抗隱私危機,最有效的辦法只有嚴懲。‘我們不能天真地期待數(shù)據(jù)公司能夠有足夠的自我驅(qū)動力,替我們維護數(shù)據(jù)中的隱私部分。對這些公司而言,懲罰是它們唯一聽得懂的語言。’

 

 

數(shù)據(jù)未來

我們正在面對的數(shù)據(jù)未來是,人或許比想象中更容易預(yù)測,而算法可能比我們更了解世界。

2008年9月15日,美國雷曼兄弟公司宣告破產(chǎn),引發(fā)次貸危機,而最早察覺到這件事的是Linkedin的數(shù)據(jù)科學(xué)家。他們注意到,9月14日明明是一個周末,網(wǎng)站數(shù)據(jù)卻十分活躍,不斷有人瘋狂聯(lián)系工作、更新簡歷、發(fā)送消息,而所有這些行為都來自雷曼兄弟的員工。

隨著技術(shù)優(yōu)化,現(xiàn)在甚至不需要成為專業(yè)人士,就能洞察真相。就在今年初,使用健身記錄軟件Strava的用戶發(fā)現(xiàn),仔細查看App所提供的跑步熱力圖,能輕易推測出美軍駐阿富汗軍事基地的具體位置。因為它會實時追蹤用戶位置數(shù)據(jù),以高亮形式呈現(xiàn)在地圖上,而在當(dāng)?shù)赜脩艉苌俚膽?zhàn)亂地區(qū),每天集體跑步的美國士兵在熱力圖上圈出了異常明顯的行動路線,基地位置、出勤時間、巡邏路線在圖上一目了然。

2012年,美國羅徹斯特大學(xué)教授亞當(dāng)·薩迪克(Adam Sadilek)和微軟實驗室的工程師約翰·克拉姆(John Krumm)共同發(fā)布了他們的研究,‘如今已有大量研究能夠預(yù)測人的未來行程,比較典型的是可以預(yù)測一小時以后,人會去哪兒。’他們的論文這樣寫道,‘相反,我們著手解決的是更開放的難題——預(yù)測數(shù)月甚至數(shù)年后,人們會在哪兒。’

他們收集了32000天里307個人和396輛車的GPS數(shù)據(jù),構(gòu)建模型,準(zhǔn)確度高達80%。在他們的描述里,未來的營銷廣告甚至可以精確成這樣:‘需要理發(fā)嗎?4天后,你將會出現(xiàn)在這家美發(fā)廳附近,到時候可以獲得5美元的折扣。’

大河說,有次數(shù)據(jù)團隊私下聊天,聊著聊著突然有人問,一個人活一輩子,是不是也能用大數(shù)據(jù)分析出來?

結(jié)果,幾個人嘻嘻哈哈地開始推演,很快把自己嚇到了。在理想狀態(tài)下,一個人從生到死的每一個階段,還真有可能預(yù)測出來——出生在哪里,家庭背景什么樣,父母收入水平怎么樣,小時候的性格行為習(xí)慣,結(jié)合當(dāng)?shù)亟逃街笖?shù),再算上從新聞中提取的實時經(jīng)濟波動曲線等等,很多以為是意外的東西,更多時候只是一種計算概率。

討論到最后,有人嚷嚷,那活著還有什么意思啊?鬧了半天,活著就是一個數(shù)學(xué)概率問題啊?

事實上,這是一部分數(shù)據(jù)科學(xué)家的愿望。他們希望打通每個環(huán)節(jié)的數(shù)據(jù),獲得全域大數(shù)據(jù),開啟‘上帝視角’,最大限度挖掘數(shù)據(jù)。在樂觀者的描述里,那會是一個奇妙的世界,機器會基于大數(shù)據(jù)替我們選擇最劃算的商品、最合適的醫(yī)生、最好的路徑,以后也不再會有交通堵塞,每個人的運行軌跡會實時調(diào)整配置,一路綠燈??

但是,也會遇到另一種可能:你的健康數(shù)據(jù)顯示你的膽固醇過高,需要鍛煉,節(jié)制飲食,可是你的購物車里下單了油炸食品,簽收人是你本人,運動傳感器顯示,你沒去跑步,還是窩在沙發(fā)上看電視劇,因此,潛在招聘官判定你的性格含有‘意志薄弱’的標(biāo)簽,打算拒絕你的求職申請。

這是一家大公司技術(shù)負責(zé)人曾經(jīng)面對的一個真實的選擇。在他的故事里,數(shù)據(jù)研究者找到他,希望他打通數(shù)據(jù),利用用戶的購物數(shù)據(jù)輔助招聘決策。但是那一次,他選擇了放棄。一大理由是跨度太大,準(zhǔn)確率無法保證,另一個理由是,這樣做讓他多少感到倫理越界,‘大數(shù)據(jù)亦有所不為’。

在大數(shù)據(jù)的世界里,依然有人相信,世界上總有數(shù)據(jù)沒有辦法解釋的那部分人性。韋思岸說,他依然更相信Serendipity,機緣巧合。‘我不想被定位、細分、轉(zhuǎn)化、分析,我可不想成為一個被大數(shù)據(jù)模型定義的人。’

盡管早已不是一名物理學(xué)家,但是他依然篤信許多物理學(xué)法則,比如能量守恒、關(guān)系反轉(zhuǎn)。大數(shù)據(jù)最美好的部分,不是最終發(fā)現(xiàn)了揭示人性的完美模型,而是不斷探索人性的過程。

他說,技術(shù)最美妙之處,就在于它能夠提供無數(shù)的可能性。技術(shù)挖掘用戶數(shù)據(jù),讓人感受到越界,但同樣地,它也能用來曝光那些封閉信息的官僚機構(gòu)和組織,用技術(shù)的方式打破他們的掩飾,讓數(shù)據(jù)完全透明,為公眾所用,F(xiàn)在的關(guān)鍵,是展開公開的討論,找到這條邊界。

無論如何,我們依然生活在這個數(shù)字化包圍的世界,不愿意放手。統(tǒng)計顯示,人們平均每天要在手機屏幕上滑動2617次,在睡不著覺的晚上,23%的受訪者會抱著手機睡覺,而其中的3%則強調(diào),自己必須要天天握著手機,才能入睡。

光纖傳回數(shù)據(jù)的時候沒有聲音,它不會提醒你,這里正在發(fā)生什么。在更好的規(guī)則到來前,大數(shù)據(jù)世界將依然是一個沒有警笛的沉默戰(zhàn)場。就像是這座城市里被忽視的周五晚高峰地鐵上的八卦、沒有打開的高端財經(jīng)App、被印在報價表上的個人喜好,還有那些為了它苦惱、爭吵、麻木、抗?fàn)幍娜祟惞适乱粯,它們只存在在一串字符與另一串字符的連接中,極少為人們所知。

(本文部分數(shù)據(jù)來源CNNIC、Quest Mobile、TalkingData、友盟、尼爾森、國家統(tǒng)計局等公開數(shù)據(jù)及上市公司公開年報,尤榕萍、萬雨可、姚胤米對此文亦有貢獻,文中提及的中國數(shù)據(jù)工作者均為匿名)

標(biāo)簽: 安全 大數(shù)據(jù) 大數(shù)據(jù)處理 大數(shù)據(jù)分析 電商 服務(wù)商 谷歌 互聯(lián)網(wǎng) 互聯(lián)網(wǎng)公司 基于大數(shù)據(jù) 金融 開發(fā)者 漏洞 媒體 排名 數(shù)據(jù)分析 數(shù)據(jù)庫 搜索 搜索引擎 推廣

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:AI專家喋喋不休展開爭論 為什么說預(yù)測是智能的本質(zhì)

下一篇:衛(wèi)報解讀機器的崛起:技術(shù)已經(jīng)進化到超出人類的控制?