中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

從二戰(zhàn)轟炸機的故事,談一談大數據智能的三個層次

2019-02-22    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

在統(tǒng)計學、MBA、大數據智能圈子里,“轟炸機機身中彈統(tǒng)計”是一個很有名的關于幸存者偏差(Survivorship Bias)的雞湯故事。本文將以這個故事為例,和大家探討一下大數據智能的三個層次:大數據簡單統(tǒng)計、大數據商業(yè)智能、大數據數據科學。

 

 

大數據簡單統(tǒng)計版:

話說二戰(zhàn)時盟軍決定給轟炸機做裝甲改裝。于是他們首先對戰(zhàn)斗結束飛回來的受損飛機做了彈孔著點統(tǒng)計(數據意識還是很強的),發(fā)現主要受損部位集中在機翼而機腹最少。所以,指揮部根據此分析得出結論:應當加強機翼的裝甲而減少機腹的裝甲。

評論:采集和歸總數據,然后通過簡單的數據分析,給出報告和相關行動建議,這是當下很多大數據工作者做的事情。在很多情況下,這樣的做法比一點不看數據是有進步的。 但是從下面一個例子也可以看出其危險不小。

 

 

大數據商業(yè)智能版:

(接上版)話說在這“加強機翼”彌天大錯就要釀成的關鍵時刻,一位聰明的工程師(到底是工程師還是將軍這里有不同版本,咱們就不深究了)站出來說“等等,不對,咱們統(tǒng)計的都是能返航的飛機,那些被擊落沒有返航的飛機呢?死人不會說話”。據此推論,“一架飛機某個部位彈孔多還能飛回來恰恰說明那個地方不需要加強,我們應該加強沒有彈孔或者彈孔少的部位,因為那些部位彈孔多的都被擊落了沒有飛回來。”

評論:這個版本是大多數人聽到的完整故事。這個版本本身已經夠轉折,很好理解又需要腦筋轉彎,所以傳播很廣。這個版本實際上可以說是一個“BI版本”。為啥說這是“BI版” 呢?因為這個工程師能夠在表面數據統(tǒng)計基礎上,再結合業(yè)務場景思考,提出業(yè)務場景和數據相結合的思路。這是大多數好BI的標準。同時,因為BI同學多傾向于用可獲得的數據快速輸出結論給業(yè)務,他們一般不太愿意從數據源等更科學的角度來思考結論的正確性。所以,這個工程師可以說是個合格的BI。

但為啥這還不是數據科學呢?因為這里的結論只是一個基于經驗的推論和假設,如果盟軍真是就靠這個直覺假設改了最初的決定,那也很危險。

值得注意的是,日常的業(yè)務中是允許發(fā)生這樣的猜想并試錯的。我們可以不停地試錯迭代,實踐出真知。但對一些試錯成本很高或者不能試錯的關鍵戰(zhàn)略問題呢?我們就必須尋找更可靠的方法。這就引向了我的最后一個話題:數據科學的版本是啥樣的?

大數據數據科學版:

(接上版):實際上,在聰明的工程師意識到他們統(tǒng)計的數據只是返航飛機的時候,這僅僅是該重大項目的開始而不是結束。他們并不是靠這個簡單的猜想就做出了可能關系到整個戰(zhàn)爭勝負的結論。他們得出的階段性結論是:我們的數據有問題,缺乏被擊落的飛機的數據。而這些數據研發(fā)工程師和BI也想不出好辦法解決這個問題,于是他們找到了數據科學的開山祖師之一——美國哥倫比亞大學統(tǒng)計學沃德教授(Abraham Wald)。

 

 

為了解決這個數據難題,沃德教授做了大量的研究,研究方法包括對收集到的歷史數據進行分析,虛擬數據仿真建模,甚至用真的戰(zhàn)斗機掃射靶機做實驗,建立一套飛機每個部位中彈后的墜毀概率模型等。

其基本思路就是通過大量統(tǒng)計分析,推理出飛機的致命要害部位與彈孔分布密度的關系,絕不僅僅是簡單的看彈孔分布密度。比如他發(fā)現發(fā)動機是最要命的地方,被擊中一彈就有39%概率徹底墜毀,所以在返航的飛機上發(fā)動機處彈孔很稀疏。具體模型有興趣的同學可以讀沃德的這篇經典論文“A Method of Estimating Plane Vulnerability Based on Damage of Survivors”。

 

 

評論:首先,這是一個最好的闡述數據科學和BI差別的例子。BI大多數時候是在現有數據基礎上比較快地給出業(yè)務需要的答案。數據科學在方法和結論的科學可驗證性上要嚴謹得多。它的優(yōu)勢是能解決很多對業(yè)務至關重要而又不能低成本試錯的場景。它的缺點是對數據有更嚴格的要求且更耗時,要比一般的分析復雜得多,相應地需要消耗更多的資源。

類似的幸存者偏差數據問題在我們日常大數據工作中無處不在。

比如一個閱讀App,它只能收集分析到現有活躍用戶的閱讀偏好數據,而缺乏對新用戶及全網用戶的閱讀偏好及變化趨勢的了解;比如某品牌App的數據平臺,它大多數時候只能采集到購買了該品牌產品的用戶的相關數據,而沒有全市場的數據和類似客戶產品使用的相關數據。數據問題對很多關鍵數據任務,如公司戰(zhàn)略數據分析、標簽畫像產出、產品創(chuàng)新、品類規(guī)劃等都會產生很大影響。據了解,目前市場上大多數的數據科學或者算法都很少系統(tǒng)地研究并解決這類關鍵數據問題!

這個短故事今天就講到這里,下面有時間我們再結合友盟+的數據科學研究,分享我們打算怎么樣在保證數據安全的前提下,幫開發(fā)者避免幸存者偏差問題。

參考文獻

l Wald, Abraham. (1943). A Method of Estimating Plane Vulnerability Based on Damage of Survivors. Statistical Research Group, Columbia University. CRC 432 — reprint from July 1980. Center for Naval Analyses.

標簽: 安全 大數據 開發(fā)者 數據分析

版權申明:本站文章部分自網絡,如有侵權,請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:數據到文本生成的近期優(yōu)質論文,我們?yōu)槟闾暨x了這六篇

下一篇:數據清洗&預處理入門完整指南