中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

如何成為一名數(shù)據(jù)科學(xué)家?聽聽來自Netfix的老司機(jī)怎么說

2018-09-06    來源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

數(shù)據(jù)科學(xué)是什么?數(shù)據(jù)分析?機(jī)器學(xué)習(xí)?還是數(shù)據(jù)工程?答案可能有很多,但也許只有直接與某個(gè)公司的數(shù)據(jù)科學(xué)家交流,才能了解該公司是如何看待數(shù)據(jù)科學(xué)的。由Netflix舉辦的第三屆聚焦數(shù)據(jù)科學(xué)的WiBD研討會(huì),為我們所有人了解Netflix的數(shù)據(jù)科學(xué)故事提供了絕佳機(jī)會(huì),一起來看看吧!

 

 

數(shù)據(jù)科學(xué)是一個(gè)非常抽象的概念。有些人認(rèn)為它是數(shù)據(jù)分析,也有一些人認(rèn)為它是機(jī)器學(xué)習(xí),還有些認(rèn)為它帶有一些數(shù)據(jù)工程的味道。

業(yè)界對(duì)數(shù)據(jù)科學(xué)這一概念難以達(dá)成一致有很多原因,其中一點(diǎn)就是,現(xiàn)在大范圍內(nèi)的崗位都可能涉及數(shù)據(jù)科學(xué),并且這些崗位的職責(zé)都不盡相同。

此外,不同公司之間的細(xì)微差別,甚至是同一公司內(nèi)部的不同團(tuán)隊(duì)之間的細(xì)微差別都會(huì)導(dǎo)致對(duì)數(shù)據(jù)科學(xué)的理解不同。因此,只有直接與某個(gè)公司的數(shù)據(jù)科學(xué)家交流才能了解該公司是如何看待數(shù)據(jù)科學(xué)的。

信息不對(duì)稱是一個(gè)令人遺憾的事實(shí),它阻礙了許多人追尋數(shù)據(jù)科學(xué)以及數(shù)據(jù)工程這一職業(yè)的道路。

如果我們投入越多的工作時(shí)間來解決這一棘手的問題,那么這一阻礙也就能越早被突破。關(guān)于這一點(diǎn),推薦一個(gè)社會(huì)教育企業(yè)——HasBrain,該企業(yè)致力于填補(bǔ)信息缺口并且為想要學(xué)習(xí)并找到通往數(shù)據(jù)科學(xué)和數(shù)據(jù)工程道路的人提供幫助。

HasBrain:http://www.hasbrain.com/

構(gòu)建數(shù)據(jù)科學(xué)項(xiàng)目

 

 

頭腦風(fēng)暴活動(dòng)

現(xiàn)實(shí)世界的數(shù)據(jù)科學(xué)項(xiàng)目與理論上的有何不同,如何構(gòu)建數(shù)據(jù)科學(xué)項(xiàng)目才能更高效?Becky在研討會(huì)上展示的數(shù)據(jù)科學(xué)項(xiàng)目體系對(duì)該問題總結(jié)得非常好。

以下是Becky的總結(jié)

步驟一:從了解業(yè)務(wù)問題開始

下面的幻燈片,是Becky就如何定義成功而列出的一系列業(yè)務(wù)問題。如果你想要很好地證明你的概念,你需要一開始要以一個(gè)簡(jiǎn)單模型作為基準(zhǔn),然后從增量改善(incremental improvement)的角度來評(píng)估模型的價(jià)值。

否則,你會(huì)一直困擾于75%的準(zhǔn)確度是否足夠好這樣的問題。擁有物理學(xué)博士學(xué)位的Becky也提到,專業(yè)學(xué)者總是會(huì)仔細(xì)檢查到最后那20%,以確保結(jié)果是無(wú)懈可擊的。所以,如果博士生們想要成為數(shù)據(jù)科學(xué)家,這一點(diǎn)是需要特別注意的。

 

 

步驟二:制定技術(shù)計(jì)劃

除了下面的幻燈片中列出的細(xì)節(jié),Becky還強(qiáng)調(diào)了溝通的重要性,同時(shí)還提出要站在利益相關(guān)者的角度思考。因?yàn)槔嫦嚓P(guān)者最關(guān)心的未必是機(jī)器學(xué)習(xí)的誤差測(cè)度,所以要學(xué)會(huì)如何將業(yè)務(wù)目標(biāo)轉(zhuǎn)化為價(jià)值優(yōu)化問題,這一點(diǎn)極為關(guān)鍵。

相較于“重新發(fā)明輪子”,弄明白和學(xué)會(huì)使用現(xiàn)有的技術(shù)可以為我們節(jié)省很多時(shí)間,F(xiàn)有的用于監(jiān)督學(xué)習(xí)的技術(shù),如預(yù)測(cè)建;蚍诸,都有很好的文檔記錄。

然而,在相對(duì)更先進(jìn)以及更專業(yè)的機(jī)器學(xué)習(xí)領(lǐng)域(例如NLP和圖像分類),新文章不斷地發(fā)表,技術(shù)不斷地更新。因此,即時(shí)了解最新和最好的研究論文是數(shù)據(jù)科學(xué)家們需要牢記的黃金準(zhǔn)則。

步驟三:對(duì)概念進(jìn)行初步驗(yàn)證 -> 不斷迭代/驗(yàn)證直到成功或是無(wú)法再繼續(xù) -> 向利益相關(guān)者傳達(dá)結(jié)果

如果你對(duì)工作流程甚至是數(shù)據(jù)科學(xué)家使用的工具或庫(kù)還有任何的疑問,都可以參考Becky在項(xiàng)目構(gòu)建中對(duì)“doing the project”這部分的詳細(xì)描述。

 

 

步驟四:模型產(chǎn)品化

如果一些數(shù)據(jù)科學(xué)家告訴你必須要學(xué)會(huì)編寫產(chǎn)品級(jí)代碼,那么,他們可能需要獨(dú)立處理模型產(chǎn)品化,而不是交給機(jī)器學(xué)習(xí)工程師或是軟件工程師。

模型產(chǎn)品化本質(zhì)上就是指不要在現(xiàn)有的模型輸出上停滯不前。你的結(jié)果輸出是產(chǎn)品的一部分,并且會(huì)改變用戶的實(shí)際體驗(yàn)。

你的代碼也會(huì)成為更大的產(chǎn)品代碼庫(kù)的一部分,例如,如果你歸類用戶是否會(huì)在未來兩周內(nèi)流失,被預(yù)測(cè)為會(huì)流失的用戶和被預(yù)測(cè)為不會(huì)流失的用戶可能會(huì)有不同的用戶界面(UI)。

實(shí)際上,你是為其他團(tuán)隊(duì)創(chuàng)建了一個(gè)API來調(diào)用你的模型并獲得模型輸出。你可能需要重構(gòu)你的代碼,此時(shí),只要API沒有中斷并且終端用戶體驗(yàn)是無(wú)縫的,你就可以不斷地升級(jí)模型。

Becky自學(xué)了工作中要用到的軟件工程方面的知識(shí),學(xué)會(huì)使代碼模塊化,以實(shí)現(xiàn)可重復(fù)性并提高算法效率。甚至有時(shí),可能會(huì)參與到軟件工程師或是數(shù)據(jù)工程師的團(tuán)隊(duì)中。這不僅取決于工作的復(fù)雜性,還取決于服務(wù)等級(jí)協(xié)議(Service Level Agreement, SLA)。例如,如果你的API需要一直處于運(yùn)行狀態(tài),則可能需要更廣泛的代碼審查或軟件工程團(tuán)隊(duì)的直接參與。

溝通與問題解決

 

 

在講述了數(shù)據(jù)科學(xué)項(xiàng)目的構(gòu)建之后,Becky更多地談到了有效溝通和解決問題的技巧的重要性。如何向非技術(shù)人員的利益相關(guān)者們解釋復(fù)雜的數(shù)據(jù)科學(xué)概念,是獲得他們買進(jìn)支持的重要環(huán)節(jié)。

Becky將她在攻讀物理學(xué)博士學(xué)位期間學(xué)會(huì)的一項(xiàng)技能運(yùn)用于此——將復(fù)雜問題分解成小塊并逐一解決。類似地,她就將利益相關(guān)者的高階問題(high level question)進(jìn)行分解,并找出數(shù)據(jù)科學(xué)項(xiàng)目可以提供價(jià)值的地方。

如果沒有數(shù)據(jù)科學(xué)家的工作經(jīng)驗(yàn),想要?jiǎng)偃芜@部分工作是不容易的,因?yàn)榘↘aggle項(xiàng)目在內(nèi)的大多數(shù)實(shí)踐項(xiàng)目都是從已經(jīng)定義明確的數(shù)據(jù)科學(xué)問題開始的。Becky談到,這些軟技能其實(shí)是從經(jīng)驗(yàn)中獲得的,當(dāng)然也可以從有效的反饋中學(xué)習(xí)。

與此同時(shí),她也會(huì)閱讀一些基礎(chǔ)書籍來熟悉商業(yè)中的通用概念和術(shù)語(yǔ)。另外,許多其他資深的數(shù)據(jù)科學(xué)家們都建議,如果想要進(jìn)一步發(fā)展自己的商業(yè)頭腦,則需要閱讀一些產(chǎn)品管理的書籍和文章。

實(shí)踐練習(xí)

 

 

這個(gè)項(xiàng)目使用WDI數(shù)據(jù)來預(yù)測(cè)業(yè)務(wù)啟動(dòng)成本,非常適合初學(xué)者。如果你是機(jī)器學(xué)習(xí)新人,或是剛剛完成一些監(jiān)督學(xué)習(xí)的網(wǎng)絡(luò)基礎(chǔ)課程,這將會(huì)是一個(gè)很好的額外練習(xí)機(jī)會(huì)。

hands-on exercise:https://github.com/NFLX-WIBD/WIBD-Workshops-2018

現(xiàn)在,讓我們回到之前談?wù)摰膯栴}解決和溝通方面,Becky就此提出了一個(gè)業(yè)務(wù)問題:“在不同的國(guó)家開展業(yè)務(wù)都有多難?”她還確立了一個(gè)項(xiàng)目目標(biāo),即預(yù)測(cè)在不同國(guó)家開展業(yè)務(wù)的成本。

如果這是一個(gè)實(shí)際的工作項(xiàng)目,對(duì)于開展業(yè)務(wù)的便利性來說,這些預(yù)測(cè)成本要如何成為整體評(píng)估決策中的一部分,我想,她可能需要與利益相關(guān)者就此問題達(dá)成一致。

最后,希望這個(gè)總結(jié)對(duì)你有幫助。祝所有數(shù)據(jù)科學(xué)愛好者們好運(yùn)!并再次感謝Netflix團(tuán)隊(duì)的慷慨分享!另有演示的幻燈片和錄像可供使用。

Presentation slides:https://github.com/NFLX-WIBD/WIBD-Workshops-2018/blob/master/Data%20Science/WIBD%20-%20Data%20Science.pdf

相關(guān)報(bào)道:https://towardsdatascience.com/a-peek-into-a-netflix-data-scientists-day-66bf3dacabb9

標(biāo)簽: 代碼 數(shù)據(jù)分析 網(wǎng)絡(luò)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:領(lǐng)英最新研究:美國(guó)數(shù)據(jù)科學(xué)人才缺口加劇

下一篇:儲(chǔ)能型數(shù)據(jù)中心電能管理模式探討