中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

想從事數(shù)據(jù)行業(yè)?你必須掌握這個最核心的技能

2018-11-20    來源:raincent

容器云強(qiáng)勢上線!快速搭建集群,上萬Linux鏡像隨意使用

大家對數(shù)據(jù)科學(xué)家的預(yù)期是應(yīng)該懂很多——機(jī)器學(xué)習(xí)、計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)、數(shù)學(xué)、數(shù)據(jù)可視化、溝通,以及深度學(xué)習(xí)。這些領(lǐng)域牽涉到很多的語言、框架以及技術(shù)的學(xué)習(xí)。數(shù)據(jù)科學(xué)家要想成為雇主想要的那種人才的話,應(yīng)該把學(xué)習(xí)的精力放在哪些地方呢?

我到求職網(wǎng)站去尋找對數(shù)據(jù)科學(xué)家最迫切的技能需求是什么。我看了一般的數(shù)據(jù)科學(xué)技能,也分別看了對語言和工具的要求。2018年10月10日,我在LinkedIn、Indeed、SimplyHired、Monster以及AngelList上面搜索了求職列表。下面這張圖列出了每個網(wǎng)站對數(shù)據(jù)科學(xué)家的需求數(shù)量。

 

 

我看了很多求職列表和調(diào)查以找出最常見的技能。像管理這類的術(shù)語就不進(jìn)行比較了,因?yàn)榭梢杂玫降膱龊咸嗔恕?/p>

所有的搜索都是針對美國,使用了“data scientist(數(shù)據(jù)科學(xué)家)”、“[keyword]”作為搜索關(guān)鍵字。采用精確匹配以減少搜索結(jié)果數(shù)。然而,這個方法確保了結(jié)果對數(shù)據(jù)科學(xué)家職位是相關(guān)的,并且對所有搜索術(shù)語都產(chǎn)生類似的作用。

AngelList提供的是列出數(shù)據(jù)科學(xué)家崗位的公司數(shù)而不是崗位數(shù)。我把AngelList從所有分析里面排除掉了,因?yàn)槠渌阉魉惴ㄋ坪醢凑誒R型的邏輯搜索進(jìn)行,沒有辦法改成AND。如果你尋找的是“數(shù)據(jù)科學(xué)家”“TensorFlow”的話,AngelList也沒問題,因?yàn)檫@只能在數(shù)據(jù)科學(xué)家崗位里面找到,但如果你的關(guān)鍵字是“數(shù)據(jù)科學(xué)家”“react.js”的話,它返回的結(jié)果就太多了,其中會包括一大堆非數(shù)據(jù)科學(xué)家的崗位列表。

Glassdoor也被排除在我的分析之外。該網(wǎng)站聲稱在美國有26263個“數(shù)據(jù)科學(xué)家”職位,但是顯示出來的卻不超過900個。此外,它上面的數(shù)據(jù)科學(xué)家崗位數(shù)超過任何其他主流平臺3倍以上似乎極不可能。

LinkedIn上超過400個崗位列表都提到的通用技能以及超過200個崗位列表都提到的特別技術(shù)被納入到最終分析里面。當(dāng)然,這兩者之間會有一些交叉。結(jié)果已經(jīng)被記錄進(jìn)這張Google Sheet 里面。

我下載了.csv文件并且導(dǎo)入到JupyterLab。然后我計(jì)算了出現(xiàn)比例并求出求職網(wǎng)站之間的平均數(shù)。

我還將軟件結(jié)果跟GlassDoor的一項(xiàng)研究(2017年上半年,針對數(shù)據(jù)科學(xué)家崗位列表)進(jìn)行了對比。再結(jié)合KDNuggets使用情況調(diào)查的信息,似乎一些技能正在變得越來月重要,而其他一些的相關(guān)性則在下降。后面我們會細(xì)談。

互動式圖表可以到我的Kaggle Kernel上面去看,額外分析可參見此處。可視化我用的是Plotly。為了本文結(jié)合使用Plotly和JupyterLab可費(fèi)了一點(diǎn)功夫——相關(guān)指令可到我的Kaggle Kernel找,另外這里也有Plotly的腳本。

通用技能

下面這張圖反映的是雇主尋找最頻繁的數(shù)據(jù)科學(xué)家通用技能。

 

 

結(jié)果表明,分析和機(jī)器學(xué)習(xí)是數(shù)據(jù)科學(xué)家崗位的核心技能。從數(shù)據(jù)中發(fā)現(xiàn)洞察是數(shù)據(jù)科學(xué)的主要職能。機(jī)器學(xué)習(xí)則是要創(chuàng)建系統(tǒng)來預(yù)測表現(xiàn),這是非常亟需的技能。

數(shù)據(jù)科學(xué)需要統(tǒng)計(jì)和計(jì)算機(jī)科學(xué)技能——這一點(diǎn)并不出奇。統(tǒng)計(jì)分析、計(jì)算機(jī)科學(xué)以及數(shù)學(xué)也是大學(xué)的專業(yè),這大概對其出現(xiàn)頻率有幫助。

有趣的是溝通在將近一半的崗位列表中被提到。數(shù)據(jù)科學(xué)家需要將洞察與工作與他人進(jìn)行溝通。

AI和深度學(xué)習(xí)的出現(xiàn)頻率沒有其他一些屬于那么頻繁。然而,它們都屬于機(jī)器學(xué)習(xí)的子集。機(jī)器學(xué)習(xí)過去由其他算法執(zhí)行的任務(wù)正在被越來越多的深度學(xué)習(xí)算法替代。比方說,大多數(shù)自然語言處理問題最好的機(jī)器學(xué)習(xí)算法現(xiàn)在都是深度學(xué)習(xí)算法。我預(yù)計(jì)深度學(xué)習(xí)技能在未來的需求會更加迫切,而機(jī)器學(xué)習(xí)也將日益變成深度學(xué)習(xí)的同義詞。

此外,哪些數(shù)據(jù)科學(xué)家的軟件工具是雇主想要尋求的呢?下面我們就來看看這個問題的答案。

技術(shù)技能

以下是雇主希望數(shù)據(jù)科學(xué)家掌握的排名靠前的20種語言、庫以及技術(shù)工具。

 

 

我們大概看一下其中最常見的技術(shù)技能。

Python

Python是需求最旺盛的語言。這門開源語言的流行度已經(jīng)被很多人注意到。它對初學(xué)者很友好,有許多支持資源。絕大部分新的數(shù)據(jù)科學(xué)工具都兼容它。

Python是數(shù)據(jù)科學(xué)家的主要語言。

R

R語言并不比Python落后多少。它一度是數(shù)據(jù)科學(xué)的主要語言。我反而對它的需求依然如此旺盛感到吃驚。這門開源語言的根在統(tǒng)計(jì),至今在統(tǒng)計(jì)學(xué)家那里仍非常流行。

Python或者R幾乎是每一個數(shù)據(jù)科學(xué)家崗位的必須。

SQL

SQL的需求也很高。SQL即結(jié)構(gòu)化查詢語言(Structured Query Language),是與關(guān)系式數(shù)據(jù)庫的主要交互方式。SQL有時候會被數(shù)據(jù)科學(xué)界忽視,但這是一門值得掌握的技能,如果你打算切入求職市場的話。

Hadoop、Spark

接下來是Hadoop和Spark,這兩個都是出自Apache的大數(shù)據(jù)開源工具。

Apache Hadoop是一個利用商品化硬件搭建的計(jì)算機(jī)集群對超大規(guī)模數(shù)據(jù)集進(jìn)行分布式存儲和分布式處理的開源軟件平臺。

Apache Spark是一個有著優(yōu)雅的、富有表現(xiàn)力的API,可讓數(shù)據(jù)工作者高效執(zhí)行需要對數(shù)據(jù)集進(jìn)行快速迭代存取的流處理、機(jī)器學(xué)習(xí)或者SQL負(fù)載的快速內(nèi)存數(shù)據(jù)處理引擎。

相對于其他,這些工具在Medium和教程中被提及的次數(shù)少了點(diǎn)。我猜具備這些技能的求職者要比具備Python、R和SQL技能的求職者少得多。如果你掌握了一定Hadoop和Spark經(jīng)驗(yàn)的話,應(yīng)該可以在競爭中獲得優(yōu)勢。

Java、SAS

然后是Java和SAS。這兩門語言地位這么高倒是出乎我的意料。其背后都有大公司的支持,支持至少都提供了一些免費(fèi)的產(chǎn)品。不過Java和SAS在數(shù)據(jù)科學(xué)社區(qū)受到的關(guān)注都很少。

Tableau

對Tableau的需求次之。這個分析平臺和可視化工具非常強(qiáng)大,易用,而且越來越流行。它有一個免費(fèi)的公共版本,但是如果你想數(shù)據(jù)保持私有的話得花錢。

如果你對Tableau不熟悉的話,到Udemy上一門Tableau 10 A-Z快速了解一下絕對是值得的。聲明一下啊,我這么建議可不是拿了傭金的——那是因?yàn)槲疑线^這門課之后發(fā)現(xiàn)它的確有用。

下面這張表反映的是更大范圍內(nèi)的語言、框架等數(shù)據(jù)科學(xué)軟件工具的需求情況。

 

 

歷史對比

GlassDoor對2017年1月到7月間數(shù)據(jù)科學(xué)家10大最常見的軟件技能進(jìn)行了分析。以下是那些術(shù)語出現(xiàn)的頻度相對2018年10月在LinkedIn、Indeed、SimplyHired及Monster上出現(xiàn)頻度平均數(shù)的對比。

 

 

結(jié)果相當(dāng)類似。我的分析和GlassDoor的分析都發(fā)現(xiàn)Python、R及SQL都是需求最旺盛的技能。兩份分析發(fā)現(xiàn)的需求前9大技術(shù)技能都是一樣的,盡管順序方面略有不同。

結(jié)果表明,相對于2017年上半年,R、Hadoop、Java、SAS及MatLab現(xiàn)在的需求略微下降,而對Tableau的需求則在上升。加上KDnuggets開發(fā)者調(diào)查這類的輔助性結(jié)果,我想這就是我預(yù)期的結(jié)論。R、Hadoop、Java和SAS均呈現(xiàn)出多年的下降趨勢,而對Tableau則顯示出明顯的上升勢頭。

建議

基于這些分析的結(jié)果,以下是對當(dāng)前和想要成為數(shù)據(jù)科學(xué)家的人提供的提升自我價值的建議。

證明你可以進(jìn)行數(shù)據(jù)分析并且專注機(jī)器學(xué)習(xí),要變得非常擅長。

對你的溝通技能進(jìn)行投資。我建議去讀讀《Made to Stick(讓創(chuàng)意更有粘性)》這本書來讓你的想法產(chǎn)生更大影響。此外還可以用Hemmingway Editor這款app改進(jìn)寫作的清晰性。

掌握一種深度學(xué)習(xí)框架。精通一種深度學(xué)習(xí)框架在精通機(jī)器學(xué)習(xí)中占據(jù)了越來越大的部分。深度學(xué)習(xí)框架在使用情況、流行度等方面的對比情況可以看我的這篇文章。

如果你要走學(xué)習(xí)Python和R語言之間做選擇的話,選Python。如果你對Python不感冒,那就選擇R。如果你也懂R的話在市場上一定會更加搶手。

當(dāng)雇主尋找懂Python技能的數(shù)據(jù)科學(xué)家時,他們可能也會預(yù)期應(yīng)征者了解常見的python數(shù)據(jù)庫庫:numpy、pandas、scikit-learn以及matplotlib等。如果你想學(xué)習(xí)這里提到的工具的話,我建議你看看以下這些資源:

DataCamp 及 DataQuest——均為定價合理的在線SaaS數(shù)據(jù)科學(xué)教育產(chǎn)品,可以一邊編碼一邊學(xué)習(xí)。這兩個都教若干的技術(shù)工具。

Data School上面有各種資源,其中就包括了一套很好的YouTube視頻,里面解釋了數(shù)據(jù)科學(xué)的概念。

McKinney的《Python for Data Analysis》。這本書是pandas庫的主要作者寫的,聚焦的是pandas,同時也討論了python基礎(chǔ)、numpy以及scikit-learn的數(shù)據(jù)科學(xué)功能。

Müller & Guido的《Introduction to Machine Leaning with Python》。Müller是scikit-learn的主要維護(hù)者之一。這本書非常優(yōu)秀,是學(xué)習(xí)用scikit-learn做機(jī)器學(xué)習(xí)的好讀物。

如果你尋求去學(xué)習(xí)深度學(xué)習(xí)的話,我建議先從Keras 或者 FastAI 開始,然后再轉(zhuǎn)到TensorFlow或者PyTorch。Chollet的《Deep Learning with Python》是學(xué)習(xí)Keras的好資源。

除了這些推薦以外,我還建議你學(xué)習(xí)自己感興趣的東西,盡管在決定如何分配學(xué)習(xí)時間方面顯然有很多考慮因素。

LinkedIn

如果你要通過在線門戶找數(shù)據(jù)科學(xué)家崗位的話,我建議你從LinkedIn開始——這個地方總是有最多的結(jié)果。

如果你在求職網(wǎng)站上尋找工作或者職位的話,關(guān)鍵字很重要。每個網(wǎng)站搜“數(shù)據(jù)科學(xué)”返回的結(jié)果數(shù)幾乎是“數(shù)據(jù)科學(xué)家”的3倍。但如果你要找的就是數(shù)據(jù)科學(xué)家的工作的話,最好還是搜索“數(shù)據(jù)科學(xué)家”。

無論你去哪里找,我建議你要制作一份在線作品集來證明你擅長許多亟需的技能。我也建議你在LinkedIn檔案上展示你的技能。

標(biāo)簽: Google ssd 大數(shù)據(jù) 腳本 開發(fā)者 排名 數(shù)據(jù)分析 數(shù)據(jù)庫 搜索

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:英語不行?你可以試試 TensorFlow 官方中文版教程

下一篇:除了R、Python,還有這些重要的數(shù)據(jù)科學(xué)工具