中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

Kaggle 2018社區(qū)調(diào)研出爐:女性從業(yè)者比例降低,00后登上歷史舞臺!

2018-12-08    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

不管是初學(xué)者還是大魔王,只要浸潤過數(shù)據(jù)科學(xué)和機器學(xué)習(xí)界,那么對于Kaggle一定不陌生。各路英豪在這個平臺上實戰(zhàn)練習(xí)、膜拜大神、打怪升級,用某個媒體人的一句話,“簡而言之,Kaggle 是玩數(shù)據(jù)、機器學(xué)習(xí)的開發(fā)者們展示功力、揚名立萬的江湖。”

Kaggle之所以成為繼Deepmind之外,谷歌收購的另一家震動業(yè)界的企業(yè),得益于其對于競賽平臺和社區(qū)運營的專注:活躍用戶基數(shù)大(具體數(shù)據(jù)從50萬到100萬仍有待確認)、粘性強。

每年,基于自己龐大的數(shù)據(jù)科學(xué)用戶,Kaggle社區(qū)都會進行一場問卷調(diào)研來了解社區(qū)發(fā)展,其結(jié)果對于整個數(shù)據(jù)科學(xué)以及機器學(xué)習(xí)領(lǐng)域的發(fā)展都是一次很好的反饋。上個月,2018年的Kaggle調(diào)研《2018 Kaggle機器學(xué)習(xí)和數(shù)據(jù)科學(xué)調(diào)研》順利完成并發(fā)布,一起來看看今年機器學(xué)習(xí)和數(shù)據(jù)科學(xué)領(lǐng)域有哪些新的變化。

 

 

右側(cè)顯示了數(shù)據(jù)來源本次調(diào)研涉及用戶信息、工作習(xí)慣、數(shù)據(jù)使用行為、數(shù)據(jù)分析工具、數(shù)據(jù)偏見算法黑盒倫理問題等各方面的50個問題,共回收有效問卷23859份。

除了問卷本身,結(jié)合一些其他相關(guān)信息和可視化,我們可以得到一些有趣的故事。

是的,女性從業(yè)者還在減少!

 

 

在上圖中,我們設(shè)計數(shù)據(jù)可視化,使用了超級英雄的主題風(fēng)格,其中,#batman(代表男性)和#wonderwoman(代表女性)在這一領(lǐng)域,男多女少的問題一直存在,且并沒有得到改善。

Kaggle 2015 年的調(diào)查顯示,數(shù)據(jù)科學(xué)崗位中女性所占的比例只有26%,而在2018年的調(diào)研中,女性填寫者的占比僅為16.8%。相比三年前,女性從業(yè)者的比例下降了。

 

 

盡管調(diào)研結(jié)果和數(shù)據(jù)科學(xué)從業(yè)者的真實性別構(gòu)成仍有一定偏差,但是這一結(jié)果還是從一定程度反映了,在技術(shù)領(lǐng)域女性角色的缺失。

這顯然并不是一件好事情。福布斯雜志甚至認為,女性比例的失衡導(dǎo)致了女性視角缺失,進而產(chǎn)生一些“盲點”,這是導(dǎo)致類似2018年谷歌大規(guī)模罷工等極端事件發(fā)生的重要原因。

00后登場,90后數(shù)據(jù)科學(xué)家占主力

 

 

上圖展示了Kaggle用戶的年齡分布情況。將條形圖分解和重構(gòu)成可用知識的一種方法是減少它們的數(shù)量,并以熟悉的形式將它們分組。數(shù)據(jù)從業(yè)者的年齡普遍比較小,從調(diào)研數(shù)據(jù)來看,問卷填寫者中占比最高的為25-29歲的年齡段;18-21歲的從業(yè)者也開始占據(jù)重要比重。也就是說,至少在數(shù)據(jù)科學(xué)界,00后已經(jīng)開始登上舞臺。

比如今年9月份,17歲的英國高中生Mikel Bober-Irizar就成為了Kaggle史上最年輕的Grandmaster,并且自己透露相關(guān)知識都來自自學(xué)。

 

 

是的,數(shù)據(jù)科學(xué)家很有錢!

 

 

問卷問題:你的年收入是多少?

 

 

將2018年調(diào)研結(jié)果與全球收入水平一起對比可以發(fā)現(xiàn),23%受訪者躋身全球財富榜的前1%!

其實,在美國,只有躋身1%的精英階層,每年的收入才超過42 萬美元。大約有23%的受訪者認為他們達到了這個水平。

此外,大約6%的人隸屬全球財富排行前10%,在美國,10%人群的收入大約是166000美元。

然而,這些數(shù)字反映的是美國家庭收入的水平。在全球范圍內(nèi),躋身前1%的年收入大概是3.2萬 。有60%的受訪者躋身前1%。60%與1%差距甚大,所以在全球范圍內(nèi),這個數(shù)據(jù)并不足以支持包容性的論斷,因為它并沒有反映全局分布情況。

Kaggle競賽冠軍最常用的機器學(xué)習(xí)框架

 

 

根據(jù)調(diào)研結(jié)果,Kaggle用戶最長使用的機器學(xué)習(xí)框架是Sci-Kit,占據(jù)了48%的份額,TensorFlow占據(jù)了16%,緊隨其后的Keras占據(jù)了14%。

而對于數(shù)據(jù)分析來說,多數(shù)從業(yè)者推薦你從Python開始學(xué)習(xí),遠高出排名二三的R、SQL占比。

 

 

金磚國家正成為社區(qū)新生力量發(fā)源地

 

 

新興的數(shù)據(jù)科學(xué)家主要來自哪里?1145名新受訪者被認定為“數(shù)據(jù)精簡主義者”,其中2018年增加了100多個國家的問卷填寫者,分別來自美國、印度、中國、俄羅斯、巴西等地區(qū)。

 

 

將這些國家按經(jīng)濟水平劃分(美國、歐洲、金磚四國和世界其它地區(qū))更有意義。從上圖可以看到,金磚四國不僅以2018年總增長率的42%為增長貢獻最大,而且是三大經(jīng)濟體中增長最快的。2018年,在“定義自己為數(shù)據(jù)科學(xué)家的用戶”類別中,歐洲增加了302個用戶,美國131個,世界其他地區(qū)231個,金磚四國:481個。關(guān)于增長率,根據(jù)預(yù)測,2020金磚國家將超過歐洲和美國的總和。

新加坡Kaggle用戶占比最多,美國被擠出TOP5

 

 

盡看各國用戶數(shù)似乎并不能說明該國的數(shù)據(jù)科學(xué)家有多流行。

當我們將這個國家的問卷填寫人與該國人口進行比例運算時,可以看到一個更有意義的排行榜:數(shù)據(jù)科學(xué)家流行率。

問卷用紅色標示頂級國家,新加坡、以色列占據(jù)冠亞軍,用黑色標示美國(最大的調(diào)查社區(qū)所在地),僅占第六位。

US 均值: 0.14 per 10,000

EU6 均值*: 0.09 per 10,000

BRICS 均值*: 0.03 (5x less than US)

從圖中,我們可以看出:美歐差距約為50%。然而,英國意味著接近EU6的平均值,而不是美國的平均值。這是否意味著我們放棄語言障礙作為解釋差距的因素?注:金磚四國和歐盟6的平均值是國家平均值,不由受訪者加權(quán)。

另外,在這個部分的可視化部分可以聊聊審美思考:這個配色方案叫做灰紅配色,這是非常棒的圖表配色方案。不像其他的方案,如灰色-灰色,它是中性的。然而,為了使它呈現(xiàn)好的視覺效果,紅色表面盡可能小,否則會產(chǎn)生喧賓奪主的視覺效果;疑-灰色的方案沒有這個限制。然而,灰色-紅色有一個秘密優(yōu)勢。通常,在圖表中使用三種顏色會造成混亂,但是因為紅色和任何灰色陰影之間的色度距離都很大,所以我們可以通過使用黑色(作為灰色的85%)作為第三種顏色來避免混亂的折衷。

創(chuàng)新水平(~80% 的相關(guān)性)

 

 

每年,Insead、Cornell和Wipo都會發(fā)布當年的全球創(chuàng)新指數(shù)。2018年,當選最具創(chuàng)新力的國家是Switzerland。依據(jù)Spearman相關(guān)系數(shù)計算結(jié)果顯示,指數(shù)和用戶流行(User Prevalence)之間的相關(guān)度達到了79%。

使用均值回歸進行預(yù)測

 

 

上圖添加了一條回歸直線。灰色部分表示95%的SE水平。不同的國家分布在直線的上下方。被紅色特別標注的國家是日本,作為一個“離群點”,有著很高的創(chuàng)新水平(y)經(jīng)濟發(fā)展水平(x)卻比較低。在這里,應(yīng)用均值回歸的準則我們會發(fā)現(xiàn),彷佛有一只看不見的手推動著這些國家朝著均值(圖中虛線部分)的方向靠近。

可視化支持方面

 

 

上圖顯示了最常用的可視化工具。這是著名的圖表模板Marimekko和符號圖表Shiva House的組合。象征意義:柱子,即在支撐社區(qū)可視化努力(屋頂負荷)方面的力度。“列”的寬度表示每個列支持多少工作/負載。右邊的灰色列表示其他不太主流的庫,如:D3、Shiny、bokeh、Leaflet、Lattice。

最后,感興趣的讀者可以戳下邊的鏈接獲取完整的Kaggle 2018調(diào)研結(jié)果和相關(guān)數(shù)據(jù)哦

標簽: 谷歌 開發(fā)者 媒體 排名 數(shù)據(jù)分析

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:被高估的 2018:深度學(xué)習(xí)發(fā)展并沒有想象的快

下一篇:美團DB數(shù)據(jù)同步到數(shù)據(jù)倉庫的架構(gòu)與實踐