中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

擔心被“暴雷”?不如做好數(shù)據(jù)的“為用之道”

2018-08-28    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

李丹楓說,在數(shù)據(jù)科學的世界里,自己最看重的是“工匠精神”。

一身深灰色T恤,談笑間謙和而沉穩(wěn)的李丹楓確實有一些“匠人”的特質(zhì)。他嚴謹、專注,對自己過手的事精益求精。

李丹楓對自己的定位,是一個業(yè)務型的數(shù)據(jù)科學家。區(qū)別于學術界追求算法優(yōu)化而忽略實際應用的做法,他非常注重包括算法在內(nèi)的數(shù)據(jù)科學技術,在用戶手中的實用性和穩(wěn)定性,并認為這是自己的“工匠精神”所在。

“提高效率,或降低成本,或增加利潤”,這是李丹楓給數(shù)據(jù)產(chǎn)品定的標準,也是他的“匠人原則”。

利基市場里孕育的人工智能

博士畢業(yè)后的李丹楓,本來是打算去一家風口浪尖上的硅谷互聯(lián)網(wǎng)公司工作的。

但是2003年初,美國剛剛經(jīng)歷了互聯(lián)網(wǎng)泡沫破裂的余震,整個互聯(lián)網(wǎng)行業(yè)式微。機緣巧合之下,李丹楓的第一份工作選擇了美國個人消費信用評估公司FICO。雖然現(xiàn)在因為互聯(lián)網(wǎng)金融的興起FICO已經(jīng)被人熟知,但在當時它的名氣遠遠不如風口中的互聯(lián)網(wǎng)公司,相比于其他同學,李丹楓的選擇顯得很另類。

“現(xiàn)在想想還挺有意思,那時很多人在泡沫破裂前去了互聯(lián)網(wǎng)初創(chuàng)公司,泡沫破裂后,那些公司在一夜間就消失了。”當時在硅谷,頭一年還拿著高薪,第二年就失業(yè)了的科學家大有人在。

 

 

(圖片說明:1995年開始的美國互聯(lián)網(wǎng)泡沫,來源:Wall Street Journal)

李丹楓非常地幸運,他的第一份工作就與人工智能有關。

在二十年前,人工智能并沒有現(xiàn)在這么火熱。FICO是最早開始將人工智能技術大規(guī)模應用在業(yè)界生產(chǎn)實踐中的公司。由于FICO的業(yè)務是在美國個人信用評級和信用卡反欺詐的利基市場(注:利基市場/niche market是指高度專門化的需求市場,是規(guī)模較小的細分市場),因此在當時并沒有受到互聯(lián)網(wǎng)泡沫破裂的太大影響。穩(wěn)定的公司環(huán)境讓李丹楓專心在信用卡反欺詐的利基市場中應用他在博士階段學到的人工智能技術。

在李丹楓看來,人工智能當時有兩個方向,一個是模擬人去做人可以做到的事,另一個是幫助人做不能做到的事。

人工智能模擬人的技術在當時非常初級。在當時很多大學和機構的實驗室中,已經(jīng)有非常多AI初級應用的模型,包括手寫體識別、人臉識別、車牌號識別等等,這些現(xiàn)在熱門的AI應用場景已經(jīng)開始出現(xiàn)在實驗室中。2000年,李丹楓在IBM Watson實習期間做的手寫體識別技術,就是教機器如何識別手寫數(shù)字,通過不斷優(yōu)化算法和模型來優(yōu)化識別結(jié)果,但準確率只能達到95%左右,并沒有達到應用到實踐中的要求。現(xiàn)如今,利用谷歌的TensorFlow已經(jīng)可以將手寫識別的準確率提高到99%以上。

在FICO,李丹楓的工作就是利用人工智能“幫助人做不能做到的事兒”——信用卡反欺詐。全世界每天產(chǎn)生海量的交易,人做不到一筆一筆去檢查是否有可能是欺詐,這時候,就需要機器對交易數(shù)據(jù)進行初篩,再將可疑的交易反饋給人工檢查。

另外,觀察到在建模過程中,很多環(huán)節(jié)都是依賴于人工,有不少優(yōu)化的空間,李丹楓就建立了一套自動化建模的流程, 只需修改幾個配置文件, 就可以實現(xiàn)自動建模,不僅將建模的時間大大縮短,而且減少了許多人為的錯誤。這個系統(tǒng)被公司使用了很長時間。

在FICO工作的經(jīng)驗,讓李丹楓不僅較早地應用了人工智能技術,還培養(yǎng)了他的“匠人”思維——重視數(shù)據(jù)產(chǎn)品的實用性。在FICO做的模型需要滿足多家銀行的需求,在服務多個客戶的過程中,李丹楓意識到數(shù)據(jù)質(zhì)量和模型穩(wěn)定性很重要,這決定了模型能否在實際應用時成功落地。

現(xiàn)在回過頭看,很多泡沫期的硅谷互聯(lián)網(wǎng)公司已經(jīng)消失,而李丹楓在機緣巧合下的選擇卻為他在數(shù)據(jù)分析和人工智能領域鋪就了堅實的基石。

擁抱國內(nèi)的大數(shù)據(jù)浪潮

2014年,在美國數(shù)據(jù)分析和挖掘領域工作十多年后,李丹楓回到國內(nèi)加入了【友盟+】,也加入了國內(nèi)數(shù)據(jù)科學的發(fā)展大潮。

“2014年國內(nèi)的創(chuàng)業(yè)氛圍熱火朝天,時刻有新鮮事物涌現(xiàn),與國外的沉寂反差巨大。我希望回到國內(nèi)以后,自己的技術長處能與業(yè)務有更多結(jié)合,驅(qū)動自己做更多正確的事。”談到美國與中國在數(shù)據(jù)科學領域的區(qū)別,李丹楓認為國外的環(huán)境更像是一個“實驗室”,國內(nèi)則更像一個“試驗田”。

他觀察到,美國公司里有很多安心做研究的人,會去做長期性的底層工作,學校和公司里研究院的資源也比較豐富。現(xiàn)在流行的人工智能和大數(shù)據(jù)處理技術大部分都源自美國的實驗室。另一方面,在美國這一較成熟的市場上,數(shù)據(jù)的使用受到了非常嚴格的管控,應用場景也大大受限。比如在信用評級過程中,用戶的性別、年齡、種族、居住地等數(shù)據(jù)都被法律禁止使用,因為公眾擔心自己會因為這些因素而受到歧視,銀行可能會根據(jù)這些數(shù)據(jù)評估用戶的信用級別,進而針對不同群體制定不一樣的利率。

中國雖然在基礎研究領域不突出,但在應用層面優(yōu)勢明顯。在國內(nèi)這一新興市場,龐大的用戶群體產(chǎn)生了豐富的數(shù)據(jù),帶來了更加多樣的應用場景,也有著自由度更高的數(shù)據(jù)使用環(huán)境。國內(nèi)廣闊的市場前景是最吸引李丹楓的地方。盡管在美國已經(jīng)有家庭的羈絆,最終他還是決定回到國內(nèi),完成從技術人才到團隊管理者的角色轉(zhuǎn)變。

在國內(nèi),李丹楓的團隊面對的是涵蓋超過7億真實網(wǎng)民的全域數(shù)據(jù),其中包括了手機、電腦、媒體、實體店鋪等線上線下產(chǎn)生的數(shù)據(jù)等等,是一個名副其實的“數(shù)據(jù)試驗田”。他山之石,可以攻玉。李丹楓將自己豐富的金融業(yè)務經(jīng)驗,首先嘗試應用在了互聯(lián)網(wǎng)金融風控領域。

2016年,在中國互聯(lián)網(wǎng)金融興起的時候,其主要的用戶群體大多沒有人行征信數(shù)據(jù),金融機構缺乏數(shù)據(jù)來鑒別欺詐行為,降低違約風險。李丹楓敏銳地意識到,在移動設備上的行為數(shù)據(jù),或許可以用來破解風控難題。

在風控數(shù)據(jù)金字塔模型中,與風控相關性最強的是人行征信數(shù)據(jù),但只有3.5億的用戶。底部的設備行為數(shù)據(jù),雖然能夠覆蓋大部分網(wǎng)民,但是數(shù)據(jù)的應用難度也最大。李丹楓的團隊結(jié)合多維數(shù)據(jù)和機器算法,形成金融風控模型,幫助金融企業(yè)提高風控決策模型的覆蓋率和準確率。

 

 

(圖片說明:互聯(lián)網(wǎng)金融風控數(shù)據(jù)金字塔模型 圖片來源:【友盟+】)

其中比較典型的是多頭借貸問題;谑謾C上的行為數(shù)據(jù),李丹楓團隊可以判斷哪些人是更有可能多頭借貸的人。“比如這個人會安裝多個借貸App,并且安裝了自動搶紅包、返利、博彩游戲之類的App”,李丹楓說道。除此之外,他們還會結(jié)合App使用的時間、時長、頻次、興趣偏好,以及手機的操作系統(tǒng)、品牌、價格、質(zhì)量等上千個維度的數(shù)據(jù)來判斷。李丹楓團隊從這些相關性很弱的數(shù)據(jù)中提取信息,通過機器學習建模,用邏輯回歸模型和樹模型,通過時間序列的變量計算輸出一個分值,從而判斷借貸人的違約風險。

 

 

(圖片說明:深度學習行為風控的三個場景 圖片來源:【友盟+】)

龐大的數(shù)據(jù)背后是責任

十幾年間,李丹楓見證了數(shù)據(jù)科學行業(yè)突飛猛進的發(fā)展。

隨著數(shù)據(jù)量的不斷增長和計算力的不斷增強,模型的復雜度也在不斷的提高,F(xiàn)在,李丹楓要面對的是服務 150 萬款 App,710 萬個網(wǎng)站,14 億個設備的海量數(shù)據(jù),數(shù)據(jù)存量高達55PB。如果拿一張 A4 紙,用正反兩面把所有數(shù)據(jù)都寫下來,紙壘起來可以裝 15 萬輛卡車。這些數(shù)據(jù)每天的運算量需要2 萬個計算單元,相當于200個地球上的100億人一天24小時不間斷地運算。

“龐大的數(shù)據(jù)背后是責任。”

李丹楓認為,在實際生產(chǎn)環(huán)境中,如果不真正理解數(shù)據(jù),往往會造成不可控的結(jié)果,F(xiàn)在隨著建模能力越來越強,很多人在不理解數(shù)據(jù)的情況下直接把數(shù)據(jù)放到模型里去,他認為這是一種很不負責的行為。

在龐大的數(shù)據(jù)背后,需要數(shù)據(jù)科學家的“工匠精神”來支撐整個機制的運作。“數(shù)據(jù)科學家要對自己的模型和分析結(jié)果負責,要理解數(shù)據(jù)本身”,李丹楓說道。在多年的數(shù)據(jù)生涯中,他也總結(jié)了自己的一套應用方法論。

“用之為用之,不用為不用,是為用也”,他認為數(shù)據(jù)的應用需根據(jù)其特點找到合適的場景,“就像你無法用棉花造出飛機一樣,每一種數(shù)據(jù)都有適用和不適用的場景。一定要清楚數(shù)據(jù)的來源和特性,找到數(shù)據(jù)本身和問題之間的相關性,使所用的數(shù)據(jù)能夠解決本質(zhì)的問題,這是一款數(shù)據(jù)產(chǎn)品取得成功的關鍵。”李丹楓要求自己時刻從現(xiàn)實的生產(chǎn)環(huán)境出發(fā),思考如何讓數(shù)據(jù)模型能夠在復雜多變的現(xiàn)實環(huán)境中穩(wěn)定地運轉(zhuǎn)。

舊時的工匠對每一個零件、每一道工序都精心打磨,李丹楓對待數(shù)據(jù)產(chǎn)品同樣如此。從源頭數(shù)據(jù)質(zhì)量的把控,到模型特征的加工,他將數(shù)據(jù)產(chǎn)品的穩(wěn)定性貫徹到建模的每一步。不管現(xiàn)在的模型有多發(fā)達,他都會鉆研透徹每一個業(yè)務的細節(jié),為每一個產(chǎn)品量身定制最合適的模型。

李丹楓的責任感還體現(xiàn)在對數(shù)據(jù)安全和用戶隱私的重視上。

大數(shù)據(jù)服務所帶來的便利正悄然改變著人們的生活,但數(shù)據(jù)泄露和隱私的問題卻時刻在威脅著每一個人和每一家公司。2017年3月,某公司試用期員工與網(wǎng)絡黑客勾結(jié),盜取涉及交通、物流、醫(yī)療等個人信息50億條,在網(wǎng)絡黑市販賣。據(jù)統(tǒng)計,截至2017年2月,中國有15046個MangoDB數(shù)據(jù)庫暴露在公網(wǎng),數(shù)據(jù)安全問題日益凸顯。

大數(shù)據(jù)應用場景下,無所不在的數(shù)據(jù)收集使得人們難以控制其個人信息的去處。利用大數(shù)據(jù)的超強分析能力對多源數(shù)據(jù)進行共享,能將原本經(jīng)過匿名化處理的數(shù)據(jù)再次還原,用戶的隱私時刻面臨著威脅。

為了保護用戶隱私,李丹楓在建模的每一步都十分注意安全問題。他以互聯(lián)網(wǎng)金融風控模型為例,在實際的建模過程中,他們往往會使用到多達150萬個維度的行為數(shù)據(jù),但是并不會對外透露數(shù)據(jù)細節(jié),而是輸出標準化的風險指數(shù),在保護用戶隱私的前提下去評估用戶的信用情況。

因果關系才是理解世界的方式

雖然人工智能在今天被炒得火熱,但李丹楓認為現(xiàn)階段它還是“弱”人工智能。

為此,他和團隊提出了一個 “數(shù)據(jù)智能”(Data Intelligence)的概念。他覺得現(xiàn)在的人工智能是依賴大量的數(shù)據(jù)來訓練一個參數(shù)眾多的“黑箱模型”,從而找到數(shù)據(jù)之間的相關關系。這些模型是建立在輸入數(shù)據(jù)和輸出數(shù)據(jù)的“相關關系”上的,而不是建立在“因果關系”上。與其說是“人工”智能,不如說是“數(shù)據(jù)”智能。在李丹楓看來,因果關系才能幫助我們理解世界。我們知道了植物是怎樣生長的,才有了萬畝良田;知道了電和磁的相互轉(zhuǎn)化,才有了萬家燈火。

人類只有能夠解釋世界,才能理解世界,從而進一步改變世界。比如愛因斯坦著名的質(zhì)能方程E=mc²,簡單的三個參數(shù)解釋了質(zhì)量和能量之間的關系,人類在此基礎上進一步用核裂變技術造出了原子彈,也使用上了核電。

 

 

(圖片說明:原子彈爆炸 來源:中國科學院近代物理研究所)

因此,李丹楓認為未來大數(shù)據(jù)領域最有待突破的是模型的可解釋性。真正的智能,在于能夠幫助我們找到因果關系的模型,未來的強人工智能或許可以幫助人類去從大數(shù)據(jù)中歸納總結(jié)出簡單的因果關系,去發(fā)現(xiàn)世界的運行規(guī)律。

不過,對于強人工智能時代的到來,他認為還需要經(jīng)過很長一段時間。“現(xiàn)在人工智能在互聯(lián)網(wǎng)、金融、醫(yī)療、物流、教育等領域都有很好的開端,當下大數(shù)據(jù)主要的發(fā)展方向是在更多的領域找到落地場景”, 李丹楓說道。

人工智能的第三次熱潮能持續(xù)多久?未來的強人工智能可以幫助人類認識到更多世界的運行規(guī)律嗎?我們或許還沒有確切的答案,但在人工智能浪潮中,像李丹楓這樣懷揣著工匠精神的數(shù)據(jù)科學家在各個領域腳踏實地地打磨好每個產(chǎn)品,將人工智能深深扎根在人們生活的方方面面,未來的美好圖景或許就在不遠的將來。

作者:李丹楓,友盟+CDO首席數(shù)據(jù)官
來源:DT數(shù)據(jù)

標簽: 安全 大數(shù)據(jù) 大數(shù)據(jù)處理 大數(shù)據(jù)處理技術 大數(shù)據(jù)服務 大數(shù)據(jù)應用 大數(shù)據(jù)應用場景 谷歌 互聯(lián)網(wǎng) 互聯(lián)網(wǎng)公司 互聯(lián)網(wǎng)金融 互聯(lián)網(wǎng)行業(yè) 金融 媒體 數(shù)據(jù)分析 數(shù)據(jù)庫

版權申明:本站文章部分自網(wǎng)絡,如有侵權,請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:5個大數(shù)據(jù)處理/數(shù)據(jù)分析/分布式工具

下一篇:數(shù)據(jù)庫的這些性能優(yōu)化,你做了嗎?