中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

數(shù)據(jù)科學(xué)流行的編程語(yǔ)言及算法、薪酬行業(yè)現(xiàn)狀

2019-02-26    來(lái)源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

有人說(shuō)“數(shù)據(jù)科學(xué)家”被譽(yù)為21世紀(jì)最性感的職業(yè),尤其在互聯(lián)網(wǎng)大數(shù)據(jù)日漸興盛的當(dāng)下更是如此。筆者靈感來(lái)源于Kaggle上發(fā)布的全球從事機(jī)器學(xué)習(xí)、數(shù)據(jù)科學(xué)領(lǐng)域人員的2017年深度調(diào)研數(shù)據(jù),便決定由此入手來(lái)揭開(kāi)數(shù)據(jù)科學(xué)家的神秘面紗。

2017 Kaggle ML & Data Science Survey此次調(diào)研共收到涵蓋52個(gè)國(guó)家的16,000+份問(wèn)卷回復(fù),問(wèn)卷內(nèi)容包含該領(lǐng)域有關(guān)從業(yè)者人群基本信息、該行業(yè)現(xiàn)狀及業(yè)界最新動(dòng)態(tài)等290個(gè)維度信息。本篇選取了包括港澳臺(tái)在內(nèi)的858份國(guó)內(nèi)數(shù)據(jù),著重從數(shù)據(jù)科學(xué)從業(yè)者人物畫(huà)像、流行的編程語(yǔ)言及算法、薪酬行業(yè)現(xiàn)狀及推薦的優(yōu)質(zhì)開(kāi)源平臺(tái)等方面分析得出相應(yīng)結(jié)論。

什么是"數(shù)據(jù)科學(xué)家"?

“數(shù)據(jù)科學(xué)家”迷人的一方面在于其工作職能的廣泛性并要求一定的熟練度,與其他大多數(shù)傳統(tǒng)職業(yè)不同,在大數(shù)據(jù)時(shí)代下數(shù)據(jù)科學(xué)家似乎是一種復(fù)合型人才,集成了統(tǒng)計(jì)分析、編程技術(shù)、商業(yè)敏感度、數(shù)學(xué)建模和可視化設(shè)計(jì)思維等能力并運(yùn)用服務(wù)于企業(yè)工作的各個(gè)環(huán)節(jié)中。

 

 

盡管我們把數(shù)據(jù)科學(xué)家定義地較為寬泛,似乎無(wú)所不能。國(guó)內(nèi)相關(guān)領(lǐng)域涵蓋的工作非常多,此次調(diào)查中較普遍的頭銜有軟件開(kāi)發(fā)工程師、數(shù)據(jù)分析師、機(jī)器學(xué)習(xí)工程師等。其中有80%掌握至少一種編程語(yǔ)言,且不同工作屬性對(duì)技能要求略有不同,但不言而喻數(shù)據(jù)科學(xué)家對(duì)掌握技能的數(shù)量要求最為嚴(yán)苛。

 

 

(圖片說(shuō)明:SKILLSETS SUMMARY TABLE)

數(shù)據(jù)科學(xué)家做項(xiàng)目時(shí)完整的生命周期包括前期準(zhǔn)備,產(chǎn)品搭建到后期商業(yè)優(yōu)化的全過(guò)程。一個(gè)最為簡(jiǎn)單的基本工作流程包括數(shù)據(jù)的前期準(zhǔn)備,模型的搭建,案例分析建模,可視化呈現(xiàn),結(jié)果解釋性分析,商業(yè)后期優(yōu)化六個(gè)步驟。目前所花時(shí)間36%是在前期數(shù)據(jù)的計(jì)劃籌備階段,人們常說(shuō)的“大”數(shù)據(jù)不僅指體量(Volumes)上的大,還有數(shù)據(jù)類(lèi)別(Variety)之大,此次調(diào)查中數(shù)據(jù)科學(xué)領(lǐng)域從業(yè)者接觸更多的是非結(jié)構(gòu)化的數(shù)據(jù)(如文本、影視、圖像等信息),數(shù)據(jù)工程師更多是處理一些關(guān)系型數(shù)據(jù)。另外調(diào)查中關(guān)于從業(yè)者工作中遇到最具有挑戰(zhàn)性的問(wèn)題中,對(duì)臟數(shù)據(jù)的預(yù)處理遙遙領(lǐng)先地排在了第一位。

 

"數(shù)據(jù)科學(xué)家"的基本畫(huà)像

接著我們從人口統(tǒng)計(jì)學(xué)入手描繪數(shù)據(jù)領(lǐng)域人員的基本畫(huà)像,本次調(diào)查對(duì)象的平均年齡大約28歲,如圖可見(jiàn)主要集中在20-30歲區(qū)間內(nèi),近九成從事最新的這份數(shù)據(jù)領(lǐng)域工作不到兩年,可見(jiàn)更換不同工作頻率較快,另外該產(chǎn)業(yè)在國(guó)內(nèi)發(fā)展逐漸興盛,期待更廣闊的前景。

 

 

(圖片說(shuō)明:AGE & EXPERIENCE DISTRIBUTION)

通常來(lái)講,女性依然是數(shù)據(jù)科學(xué)領(lǐng)域稀有的存在,數(shù)據(jù)科學(xué)從業(yè)者中最普遍的學(xué)歷是碩士,但在女性數(shù)據(jù)相關(guān)領(lǐng)域群體中,擁有學(xué)士學(xué)位的從事者略高于碩士學(xué)位。

流行的分析工具及算法

近些年來(lái),Python是數(shù)據(jù)科學(xué)領(lǐng)域人員最推薦也是發(fā)展較快的工具,推薦人數(shù)占75%,還有很多仍然保持著對(duì)R語(yǔ)言的忠誠(chéng),C/C++/C#則是程序員的有力武器。可見(jiàn)R,Python是兩個(gè)最熱門(mén)的開(kāi)源數(shù)據(jù)分析工具,因此核心掌握這兩門(mén)語(yǔ)言會(huì)讓數(shù)據(jù)分析師具備更有力的競(jìng)爭(zhēng)優(yōu)勢(shì)。另外值得關(guān)注的是,在關(guān)于分析師次年想要pick的機(jī)器學(xué)習(xí)工具的問(wèn)題中,解決神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)的有力工具TensorFlow熱度顯著僅次于Python,以及一些大數(shù)據(jù)工具Hadoop,Hive,Spark等的推薦指數(shù)也很高。

 

 

在數(shù)據(jù)科學(xué)領(lǐng)域?qū)嶋H工作項(xiàng)目中,隨著AI和機(jī)器學(xué)習(xí)的不斷滲透,神經(jīng)網(wǎng)絡(luò)模型、CNN卷積神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林、決策樹(shù)和SVM支持向量機(jī)模型的使用逐漸趨于頻繁。另外,功能強(qiáng)大的集成方法、貝葉斯及數(shù)據(jù)可視化也十分受歡迎,時(shí)間序列和文本挖掘如NLP也逐漸被使用,回歸仍是工作之中最經(jīng)典的算法之一。

 

 

(圖片說(shuō)明:ALGORITHMS/ANALYTIC METHODS)

行業(yè)薪酬排行榜

 

 

從國(guó)內(nèi)數(shù)據(jù)科學(xué)領(lǐng)域現(xiàn)狀看來(lái),相關(guān)職位的全職年薪平均值約為$47K,盡管剔除了一些極端離異值的影響,仍不排除調(diào)查誤差的存在。從薪酬排行榜的行業(yè)分布來(lái)看,其中薪水較高的公司集中在一些高新科技企業(yè)、CRM公司、零售、金融、計(jì)算機(jī)互聯(lián)網(wǎng)公司等巨頭行業(yè),其中科技公司的薪酬極差最大。從專(zhuān)業(yè)分布來(lái)看,可能拿到較高薪水的專(zhuān)業(yè)如工程學(xué)位、計(jì)算機(jī)科學(xué)、信息管理專(zhuān)業(yè)、數(shù)學(xué)統(tǒng)計(jì)學(xué)等熱門(mén)專(zhuān)業(yè),但薪酬排名前三名的專(zhuān)業(yè)極差也較大。相對(duì)于目前的薪酬,在工作中的項(xiàng)目經(jīng)驗(yàn)積累往往更為重要,因?yàn)樵陉P(guān)于工作相關(guān)因素重要性的調(diào)查中,我們發(fā)現(xiàn)從業(yè)者對(duì)「職業(yè)發(fā)展機(jī)遇和學(xué)習(xí)機(jī)會(huì)」的重要性排序超過(guò)了對(duì)「補(bǔ)償和福利」的關(guān)注。

 

 

(圖片說(shuō)明:JOB FACTOR IMPORTANCE RANKNING)

優(yōu)質(zhì)的開(kāi)源平臺(tái)

 

 

沒(méi)有數(shù)據(jù)一切就是無(wú)稽之談,之前也提到在前期數(shù)據(jù)的準(zhǔn)備階段最為耗時(shí),如何找到有效且干凈的數(shù)據(jù)用于訓(xùn)練和項(xiàng)目開(kāi)發(fā)就顯得相當(dāng)重要。其中36%推薦使用數(shù)據(jù)集聚合平臺(tái),如本文的數(shù)據(jù)來(lái)源Kaggle等社區(qū)便成為最頻繁使用的平臺(tái)。世界上最大的代碼庫(kù)GitHub也有數(shù)據(jù)的大量資源共享,另外自己通過(guò)爬蟲(chóng)也是很好的獲取數(shù)據(jù)資源方法。

 

 

(圖片說(shuō)明:TIME SPENT ON SELF-IMPROVEMENT PLATFORMS)

 

 

數(shù)據(jù)科學(xué)是一個(gè)急速發(fā)展、日新月異的領(lǐng)域,有很多有價(jià)值的資源可以助你一臂之力。無(wú)論是對(duì)數(shù)據(jù)領(lǐng)域小白還是已經(jīng)在此領(lǐng)域中摸爬滾打的資深玩家,都能幫助你不斷充電提升競(jìng)爭(zhēng)力,保持自己在業(yè)內(nèi)的頂尖優(yōu)勢(shì)。選擇自學(xué)的人數(shù)占四成且花時(shí)間最多,其次選擇Coursera, Udemy, Edx在線課程提升自我的也占一定比例35%,無(wú)所不能的Stack Overflow可以讓你站著巨人的肩膀上,避免踏入前人的坑。值得推薦的是,Kaggle這個(gè)數(shù)據(jù)科學(xué)愛(ài)好者組成的社群,里面不定期發(fā)布的機(jī)器學(xué)習(xí)競(jìng)賽的實(shí)戰(zhàn)項(xiàng)目也可以讓你從實(shí)踐中收獲更多。

結(jié)論

數(shù)據(jù)科學(xué)家要求掌握編程技術(shù)、商業(yè)敏感度、數(shù)學(xué)建模和可視化設(shè)計(jì)等各種能力的綜合。在基本工作流程中大部分時(shí)間是在前期數(shù)據(jù)的計(jì)劃階段。

數(shù)據(jù)從業(yè)者平均年齡大約 28歲,男女比例基本成八二分,數(shù)據(jù)科學(xué)從業(yè)者中最普遍的學(xué)歷是碩士。

Python是機(jī)器學(xué)習(xí)者最推薦的編程語(yǔ)言,TensorFlow熱度也值得關(guān)注。一些CNN、隨機(jī)森林、決策樹(shù)和SVM等算法使用頻率較高。

高薪行業(yè)集中在高新科技企業(yè)、CRM公司、計(jì)算機(jī)互聯(lián)網(wǎng)等行業(yè),但行業(yè)內(nèi)差距也較大,可能拿到高薪的專(zhuān)業(yè)如工程學(xué)、計(jì)算機(jī)科學(xué)、數(shù)理統(tǒng)計(jì)學(xué)等。

較多人推薦使用Socrata、Kaggle等平臺(tái)搜集原始數(shù)據(jù),近四成使用Coursera, Udemy, Udacity, Edx在線課程保持競(jìng)爭(zhēng)力,Stackflow/GitHub等在線社區(qū)也很值得推薦。

 

 

此篇是介紹了ML&Data Science調(diào)查結(jié)果的國(guó)內(nèi)篇,數(shù)據(jù)量較為有限,另外Kaggle作為著名的在線數(shù)據(jù)科學(xué)競(jìng)賽平臺(tái),此次調(diào)查可能是針對(duì)Kagglers對(duì)數(shù)據(jù)科學(xué)領(lǐng)域的回復(fù),本文的分析結(jié)果希望給大家作為一個(gè)參考。

Yoki Zhang,統(tǒng)計(jì)學(xué)碩士,就職于Merkle。

標(biāo)簽: 大數(shù)據(jù) 大數(shù)據(jù)時(shí)代 代碼 互聯(lián)網(wǎng) 互聯(lián)網(wǎng)大數(shù)據(jù) 互聯(lián)網(wǎng)公司 金融 排名 數(shù)據(jù)分析 網(wǎng)絡(luò)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:數(shù)據(jù)科學(xué)新人需要知道的13個(gè)雷區(qū)

下一篇:麻省理工科技評(píng)論:分析發(fā)現(xiàn)深度學(xué)習(xí)正在走向終點(diǎn)