中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)面試問題集錦

2018-12-25    來源:raincent

容器云強(qiáng)勢上線!快速搭建集群,上萬Linux鏡像隨意使用

 可怕的機(jī)器學(xué)習(xí)面試。你覺得自己什么都懂,直到你進(jìn)行了測試!但一切可以得到改變。

在過去的幾個(gè)月里,我面試了許多公司涉及數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的初級(jí)職位。介紹一下我自己,以讓你對(duì)我有一定了解。我還有最后幾個(gè)月就研究生畢業(yè),我的碩士是機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺,我之前的大部分經(jīng)驗(yàn)是研究/學(xué)術(shù),但在一個(gè)早期創(chuàng)業(yè)公司待過8個(gè)月(與機(jī)器學(xué)習(xí)無關(guān))。這些角色包括數(shù)據(jù)科學(xué)、通用機(jī)器學(xué)習(xí)和專精自然語言處理及計(jì)算機(jī)視覺。我面試過亞馬遜、特斯拉、三星、優(yōu)步、華為等大公司,也面試過很多從初創(chuàng)階段到資金雄厚的初創(chuàng)公司。

今天我將和大家分享我被問到過的所有面試問題以及如何應(yīng)答這些問題。許多問題都是很常見的理論,但許多其他問題相當(dāng)有創(chuàng)意。我將簡單地列出最常見的一些問題,因?yàn)榫W(wǎng)上有很多關(guān)于它們的資源,并將更深入地介紹一些不太常見和更刁鉆的問題。我希望通過閱讀這篇文章,你可以在機(jī)器學(xué)習(xí)面試中取得好成績,找到你夢想的工作!

讓我們開始吧:

偏差和方差之間的協(xié)調(diào)是什么?

什么是梯度下降?

解釋過擬合和欠擬合以及如何與之對(duì)抗?

你如何對(duì)抗維度的詛咒?

什么是正則化,我們?yōu)槭裁匆褂盟,并給出一些常見方法的例子?

解釋主成分分析法 (PCA)?

為什么在神經(jīng)網(wǎng)絡(luò)中ReLU比Sigmoid更好更常用 ?

什么是數(shù)據(jù)標(biāo)準(zhǔn)化,我們?yōu)槭裁葱枰? 我覺得很有必要強(qiáng)調(diào)這一題。數(shù)據(jù)標(biāo)準(zhǔn)化是非常重要的預(yù)處理步驟,用于對(duì)數(shù)值進(jìn)行調(diào)節(jié),使其擬合特定的范圍,以確保在反向傳播過程中更好地收斂。一般來說,這可以歸結(jié)為減去每個(gè)數(shù)據(jù)點(diǎn)的均值,再除以其標(biāo)準(zhǔn)差。如果我們不這樣做,那么一些特征(那些高量級(jí)的)將在成本函數(shù)中得到更多的權(quán)重(如果一個(gè)高量級(jí)的特征變化了1%,那么這個(gè)變化是相當(dāng)大的,但是對(duì)于較小量級(jí)的特征來說,它是相當(dāng)小的)。數(shù)據(jù)標(biāo)準(zhǔn)化使得所有特征的權(quán)重相等。

解釋降維,在哪里會(huì)用到以及它的好處? 降維是通過減少所考慮的特征變量數(shù)量來得到一組主變量(也就是重要特征)的過程。特性的重要性取決于特征變量對(duì)數(shù)據(jù)信息表示的貢獻(xiàn),并取決于你使用哪種技術(shù)。決定使用哪種技術(shù)取決于反復(fù)試驗(yàn)和偏好。通常從線性技術(shù)開始,當(dāng)結(jié)果不擬合時(shí),就轉(zhuǎn)向非線性技術(shù)。數(shù)據(jù)集降維的潛在好處有:(1)減少所需存儲(chǔ)空間 (2)加速計(jì)算(例如在機(jī)器學(xué)習(xí)算法),維度低意味著更少的計(jì)算,維度低也意味著可以使用不適合高維度的算法 (3)刪除冗余特征,例如沒有意義同時(shí)用平方米和平方英里來存儲(chǔ)地形的大小(可能是數(shù)據(jù)采集存在缺陷) (4)降低數(shù)據(jù)維度到2D或3D可能允許我們繪圖和可視化它們,如觀察模式,給我們深刻見解 (5)太多的特征或太復(fù)雜的模型可能導(dǎo)致過度擬合。

如何處理數(shù)據(jù)集中丟失或損壞的數(shù)據(jù)? 你可以在數(shù)據(jù)集中找到丟失/損壞的數(shù)據(jù),你可以刪除這些行或列,或者用另一個(gè)值替換它們。在Pandas中,有兩個(gè)非常有用的方法:isnull()和dropna(),它們將幫助您找到丟失或損壞數(shù)據(jù)的數(shù)據(jù)列,并刪除這些值。如果希望用占位符值(例如0)填充無效值,可以使用fillna()方法。

解釋這種聚類算法? 我寫了一篇很受歡迎的文章,是關(guān)于數(shù)據(jù)科學(xué)家需要知道的5種聚類算法,用各種可視化圖形詳細(xì)解釋了每種算法。

你將如何進(jìn)行探索性數(shù)據(jù)分析(EDA)? EDA的目標(biāo)是在應(yīng)用預(yù)測模型之前從數(shù)據(jù)中收集一些見解,也就是獲得一些信息;旧,你希望以一種從粗到細(xì)的方式進(jìn)行EDA。我們從獲得一些高層次的全局見解開始?纯匆恍┎黄胶獾念?纯疵總(gè)類的均值和方差。查看前幾行,看看它是關(guān)于什么的。運(yùn)行Pandas df.info()來查看哪些特性是連續(xù)的、分類的、它們的類型(int、float、string)。接下來,刪除在分析和預(yù)測中不無用的列。這些可能是看起來無用的列,其中一個(gè)是許多行具有相同的值(即該列沒有給我們很多信息),或者它丟失了很多值。我們還可以用該列中最常見的值或中值填充缺失的值,F(xiàn)在我們可以開始做一些基本的可視化。從高層次的東西開始。為特征是分類和有少數(shù)組的做一些條形圖。最后類的條形圖?纯醋“寬泛的特征”。對(duì)這些單獨(dú)的特征創(chuàng)建一些可視化,以嘗試獲得一些基本見解,F(xiàn)在我們可以開始更具體的。在兩個(gè)或三個(gè)特性之間創(chuàng)建可視化。特性是如何相互關(guān)聯(lián)的?你還可以用PCA查看哪些特征包含最多的信息。將一些特性組合在一起,看看它們之間的關(guān)系。例如,當(dāng)A = 0和B = 0時(shí),類會(huì)發(fā)生什么?當(dāng)A = 1,B = 0時(shí)呢?比較不同的特征。例如,如果特征A可以是“女性”或“男性”,那么我們可以將特征A與他們呆在哪個(gè)小屋相對(duì)照,看看男性和女性是否住在不同的小屋。除了條形圖、散點(diǎn)圖和其他基本圖外,我們還可以繪制PDF/CDF、重疊圖等。查看一些統(tǒng)計(jì)數(shù)據(jù),如分布、p值等。最后,是時(shí)候創(chuàng)建ML模型了。從簡單的貝葉斯和線性回歸開始。如果你發(fā)現(xiàn)很糟糕或者數(shù)據(jù)是高度非線性的,那就使用多項(xiàng)式回歸、決策樹或者SVMs?梢愿鶕(jù)EDA中特征的重要性選擇它們。如果你有很多數(shù)據(jù),你可以使用神經(jīng)網(wǎng)絡(luò)。檢查ROC曲線。精度、回憶 。

你如何知道應(yīng)該使用哪種機(jī)器學(xué)習(xí)模型?雖然人們應(yīng)該時(shí)刻牢記“天下沒有免費(fèi)的午餐”,但還是有一些基本原則的。我在這里寫了一篇關(guān)于如何選擇合適的回歸模型的文章。這個(gè)備忘單也很棒!

為什么我們對(duì)圖像使用卷積而不僅僅是FC層?這個(gè)問題很有趣,因?yàn)楣就ǔ2粫?huì)問這個(gè)問題。正如你所料,我從一家專注于計(jì)算機(jī)視覺的公司得到了這個(gè)問題。這個(gè)答案有兩部分。首先,卷積保存、編碼并實(shí)際使用了圖像中的空間信息。如果我們只使用FC層,就不會(huì)有相關(guān)的空間信息。其次,卷積神經(jīng)網(wǎng)絡(luò)(CNNs)具有部分內(nèi)建的平移方差,因?yàn)槊總(gè)卷積核都充當(dāng)自己的濾波器/特征檢測器。

什么使CNNs不受平移影響?如上所述,每個(gè)卷積核都充當(dāng)自己的濾波器/特征檢測器。假設(shè)你在做物體檢測,物體在圖像中的什么位置并不重要因?yàn)槲覀円曰瑒?dòng)窗口的方式對(duì)整個(gè)圖像進(jìn)行卷積。

為什么分類CNNs 有最大池化?正如你所預(yù)料的,這是為了計(jì)算機(jī)視覺中的一個(gè)角色。CNN中的最大池化允許你減少計(jì)算,因?yàn)槟愕奶卣鲌D在池化之后更小。你不會(huì)丟失太多的語義信息,因?yàn)槟阏谶M(jìn)行最大限度的激活。也有一種理論認(rèn)為,最大池效應(yīng)在一定程度上增加了CNNs的不受平移影響性?纯磪嵌鬟_(dá)關(guān)于最大池化的好處視頻。

為什么分段CNNs通常具有編碼器-解碼器風(fēng)格/結(jié)構(gòu)?編碼器CNN基本上可以被認(rèn)為是一個(gè)特征提取網(wǎng)絡(luò),而解碼器利用這些信息通過“解碼”特征并向上放大到原始圖像大小來預(yù)測圖像的片段。

什么是批量標(biāo)準(zhǔn)化,它為什么有效? 深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練是復(fù)雜的,因?yàn)槊恳粚拥妮斎敕植荚谟?xùn)練過程中會(huì)隨著前一層參數(shù)的變化而變化。批量標(biāo)準(zhǔn)化的目的是使每一層的輸入標(biāo)準(zhǔn)化,使它們的平均輸出激活為0,標(biāo)準(zhǔn)偏差為1。每一層中的每一個(gè)小批都會(huì)進(jìn)行處理,即單獨(dú)計(jì)算小批的均值和方差,然后標(biāo)準(zhǔn)化。這類似于網(wǎng)絡(luò)輸入的標(biāo)準(zhǔn)化。這有什么幫助呢?我們知道對(duì)網(wǎng)絡(luò)輸入進(jìn)行標(biāo)準(zhǔn)化有助于其學(xué)習(xí)。但是網(wǎng)絡(luò)只是一系列層,其中一層的輸出成為下一層的輸入。這意味著我們可以把神經(jīng)網(wǎng)絡(luò)中的任何一層看作是更小的后續(xù)網(wǎng)絡(luò)的第一層。我們將神經(jīng)網(wǎng)絡(luò)看作是一系列相互饋入的神經(jīng)網(wǎng)絡(luò),在應(yīng)用激活函數(shù)之前對(duì)一層的輸出進(jìn)行標(biāo)準(zhǔn)化,然后將其饋入下一層(子網(wǎng)絡(luò))。

如何處理不平衡的數(shù)據(jù)集?我有一篇關(guān)于這個(gè)的文章!

為什么要使用很多小的卷積核,比如3x3,而不是幾個(gè)大的?這在VGGNet的論文中得到了很好的解釋。有兩個(gè)原因:首先,你可以使用幾個(gè)較小的內(nèi)核而不是幾個(gè)較大的內(nèi)核來獲得相同的接收域并捕獲更多的空間信息,但是使用較小的內(nèi)核可以使用較少的參數(shù)和計(jì)算。其次,因?yàn)槭褂酶〉膬?nèi)核,你將使用更多的過濾器,使用更多的激活函數(shù),因此CNN將學(xué)習(xí)到更有鑒別性的映射函數(shù)。

你還有其他相關(guān)的項(xiàng)目嗎?在這里,你將真正在你的研究和他們的業(yè)務(wù)之間建立聯(lián)系。你有沒有做過什么事或?qū)W過什么技能,可能與他們的業(yè)務(wù)或你申請(qǐng)的職位有關(guān)? 不必是100%相關(guān),只是某種程度上相關(guān),這樣你就可以證明你能夠直接為公司增加很多價(jià)值。

解釋一下你目前的碩士研究?什么成功了?沒有失敗了?未來的發(fā)展方向?和上一個(gè)問題一樣!

 

數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)面試問題集錦

 

結(jié)論

這就是所有我在申請(qǐng)數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)職位時(shí)得到的面試問題。我希望你喜歡這篇文章,并學(xué)到一些新的、有用的東西!如果你覺得學(xué)到點(diǎn)什么,請(qǐng)點(diǎn)贊!

原標(biāo)題 :Data Science and Machine Learning Interview Questions

作者 :George Seif

翻譯 : Disillusion

原文鏈接:

https://towardsdatascience.com/data-science-and-machine-learning-interview-questions-3f6207cf040b

標(biāo)簽: 數(shù)據(jù)分析 網(wǎng)絡(luò)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:如何構(gòu)建一個(gè)機(jī)器學(xué)習(xí)項(xiàng)目來找到工作?

下一篇:微模塊數(shù)據(jù)機(jī)房VS傳統(tǒng)機(jī)房,優(yōu)勢在哪里?