中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

數(shù)據(jù)特征的標(biāo)準(zhǔn)化和歸一化你了解多少?

2018-07-28    來(lái)源:raincent

容器云強(qiáng)勢(shì)上線(xiàn)!快速搭建集群,上萬(wàn)Linux鏡像隨意使用
一、標(biāo)準(zhǔn)化/歸一化定義

歸一化和標(biāo)準(zhǔn)化經(jīng)常被搞混,程度還比較嚴(yán)重,非常干擾大家的理解。為了方便后續(xù)的討論,必須先明確二者的定義。

歸一化

就是將訓(xùn)練集中某一列數(shù)值特征(假設(shè)是第i列)的值縮放到0和1之間。方法如下所示:

 

 

標(biāo)準(zhǔn)化

就是將訓(xùn)練集中某一列數(shù)值特征(假設(shè)是第i列)的值縮放成均值為0,方差為1的狀態(tài)。如下所示:

 

 

進(jìn)一步明確二者含義

歸一化和標(biāo)準(zhǔn)化的相同點(diǎn)都是對(duì)某個(gè)特征(column)進(jìn)行縮放(scaling)而不是對(duì)某個(gè)樣本的特征向量(row)進(jìn)行縮放。對(duì)特征向量進(jìn)行縮放是毫無(wú)意義的(暗坑1) 比如三列特征:身高、體重、血壓。每一條樣本(row)就是三個(gè)這樣的值,對(duì)這個(gè)row無(wú)論是進(jìn)行標(biāo)準(zhǔn)化還是歸一化都是好笑的,因?yàn)槟悴荒軐⑸砀、體重和血壓混到一起去!

在線(xiàn)性代數(shù)中,將一個(gè)向量除以向量的長(zhǎng)度,也被稱(chēng)為標(biāo)準(zhǔn)化,不過(guò)這里的標(biāo)準(zhǔn)化是將向量變?yōu)殚L(zhǎng)度為1的單位向量,它和我們這里的標(biāo)準(zhǔn)化不是一回事兒,不要搞混哦(暗坑2)。

二、標(biāo)準(zhǔn)化/歸一化的好處

2.1 提升模型精度

在機(jī)器學(xué)習(xí)算法的目標(biāo)函數(shù)(例如SVM的RBF內(nèi)核或線(xiàn)性模型的l1和l2正則化),許多學(xué)習(xí)算法中目標(biāo)函數(shù)的基礎(chǔ)都是假設(shè)所有的特征都是零均值并且具有同一階數(shù)上的方差。如果某個(gè)特征的方差比其他特征大幾個(gè)數(shù)量級(jí),那么它就會(huì)在學(xué)習(xí)算法中占據(jù)主導(dǎo)位置,導(dǎo)致學(xué)習(xí)器并不能像我們說(shuō)期望的那樣,從其他特征中學(xué)習(xí)。

舉一個(gè)簡(jiǎn)單的例子,在KNN中,我們需要計(jì)算待分類(lèi)點(diǎn)與所有實(shí)例點(diǎn)的距離。假設(shè)每個(gè)實(shí)例點(diǎn)(instance)由n個(gè)features構(gòu)成。如果我們選用的距離度量為歐式距離,如果數(shù)據(jù)預(yù)先沒(méi)有經(jīng)過(guò)歸一化,那么那些絕對(duì)值大的features在歐式距離計(jì)算的時(shí)候起了決定性作用。

從經(jīng)驗(yàn)上說(shuō),歸一化是讓不同維度之間的特征在數(shù)值上有一定比較性,可以大大提高分類(lèi)器的準(zhǔn)確性。

2.2 提升收斂速度

對(duì)于線(xiàn)性model來(lái)說(shuō),數(shù)據(jù)歸一化后,最優(yōu)解的尋優(yōu)過(guò)程明顯會(huì)變得平緩,更容易正確的收斂到最優(yōu)解。

 

 

比較這兩個(gè)圖,前者是沒(méi)有經(jīng)過(guò)歸一化的,在梯度下降的過(guò)程中,走的路徑更加的曲折,而第二個(gè)圖明顯路徑更加平緩,收斂速度更快。 對(duì)于神經(jīng)網(wǎng)絡(luò)模型,避免飽和是一個(gè)需要考慮的因素,通常參數(shù)的選擇決定于input數(shù)據(jù)的大小范圍。

三、標(biāo)準(zhǔn)化/歸一化的對(duì)比分析

首先明確,在機(jī)器學(xué)習(xí)中,標(biāo)準(zhǔn)化是更常用的手段,歸一化的應(yīng)用場(chǎng)景是有限的。我總結(jié)原因有兩點(diǎn):

1、標(biāo)準(zhǔn)化更好保持了樣本間距。當(dāng)樣本中有異常點(diǎn)時(shí),歸一化有可能將正常的樣本“擠”到一起去。比如三個(gè)樣本,某個(gè)特征的值為1,2,10000,假設(shè)10000這個(gè)值是異常值,用歸一化的方法后,正常的1,2就會(huì)被“擠”到一起去。如果不幸的是1和2的分類(lèi)標(biāo)簽還是相反的,那么,當(dāng)我們用梯度下降來(lái)做分類(lèi)模型訓(xùn)練時(shí),模型會(huì)需要更長(zhǎng)的時(shí)間收斂,因?yàn)閷颖痉珠_(kāi)需要更大的努力!而標(biāo)準(zhǔn)化在這方面就做得很好,至少它不會(huì)將樣本“擠到一起”。

2、標(biāo)準(zhǔn)化更符合統(tǒng)計(jì)學(xué)假設(shè)

對(duì)一個(gè)數(shù)值特征來(lái)說(shuō),很大可能它是服從正態(tài)分布的。標(biāo)準(zhǔn)化其實(shí)是基于這個(gè)隱含假設(shè),只不過(guò)是略施小技,將這個(gè)正態(tài)分布調(diào)整為均值為0,方差為1的標(biāo)準(zhǔn)正態(tài)分布而已。

所以,下面的討論我們先集中分析標(biāo)準(zhǔn)化在機(jī)器學(xué)習(xí)中運(yùn)用的情況,在文章末尾,簡(jiǎn)單探討一下歸一化的使用場(chǎng)景。這樣更能凸顯重點(diǎn),又能保持內(nèi)容的完整性,暫時(shí)忘記歸一化,讓我們focus到標(biāo)準(zhǔn)化上吧。

四、邏輯回歸必須要進(jìn)行標(biāo)準(zhǔn)化嗎?

我覺(jué)得,回答完上面的問(wèn)題,就可以很好地掌握標(biāo)準(zhǔn)化在機(jī)器學(xué)習(xí)中的運(yùn)用。

首先,請(qǐng)嘗試自己來(lái)回答一下(暫停5秒)

無(wú)論你回答必須或者不必須,你都是錯(cuò)的!

真正的答案是,這取決于我們的邏輯回歸是不是用正則。

如果你不用正則,那么,標(biāo)準(zhǔn)化并不是必須的,如果你用正則,那么標(biāo)準(zhǔn)化是必須的。(暗坑3)

為什么呢?

因?yàn)椴挥谜齽t時(shí),我們的損失函數(shù)只是僅僅在度量預(yù)測(cè)與真實(shí)的差距,加上正則后,我們的損失函數(shù)除了要度量上面的差距外,還要度量參數(shù)值是否足夠小。而參數(shù)值的大小程度或者說(shuō)大小的級(jí)別是與特征的數(shù)值范圍相關(guān)的。舉例來(lái)說(shuō),我們用體重預(yù)測(cè)身高,體重用kg衡量時(shí),訓(xùn)練出的模型是: 身高 = 體重*x x就是我們訓(xùn)練出來(lái)的參數(shù)。

當(dāng)我們的體重用噸來(lái)衡量時(shí),x的值就會(huì)擴(kuò)大為原來(lái)的1000倍。

在上面兩種情況下,都用L1正則的話(huà),顯然對(duì)模型的訓(xùn)練影響是不同的。

假如不同的特征的數(shù)值范圍不一樣,有的是0到0.1,有的是100到10000,那么,每個(gè)特征對(duì)應(yīng)的參數(shù)大小級(jí)別也會(huì)不一樣,在L1正則時(shí),我們是簡(jiǎn)單將參數(shù)的絕對(duì)值相加,因?yàn)樗鼈兊拇笮〖?jí)別不一樣,就會(huì)導(dǎo)致L1最后只會(huì)對(duì)那些級(jí)別比較大的參數(shù)有作用,那些小的參數(shù)都被忽略了。

如果你回答到這里,面試官應(yīng)該基本滿(mǎn)意了,但是他可能會(huì)進(jìn)一步考察你,如果不用正則,那么標(biāo)準(zhǔn)化對(duì)邏輯回歸有什么好處嗎?

答案是有好處,進(jìn)行標(biāo)準(zhǔn)化后,我們得出的參數(shù)值的大小可以反應(yīng)出不同特征對(duì)樣本label的貢獻(xiàn)度,方便我們進(jìn)行特征篩選。如果不做標(biāo)準(zhǔn)化,是不能這樣來(lái)篩選特征的。

答到這里,有些厲害的面試官可能會(huì)繼續(xù)問(wèn),做標(biāo)準(zhǔn)化有什么注意事項(xiàng)嗎?

最大的注意事項(xiàng)就是先拆分出test集,不要在整個(gè)數(shù)據(jù)集上做標(biāo)準(zhǔn)化,因?yàn)槟菢訒?huì)將test集的信息引入到訓(xùn)練集中,這是一個(gè)非常容易犯的錯(cuò)誤!

五、通過(guò)例子來(lái)說(shuō)明

我們先從簡(jiǎn)單的預(yù)測(cè)房?jī)r(jià)的線(xiàn)性回歸模型開(kāi)始:

有一組關(guān)于房?jī)r(jià)和房子變量的數(shù)據(jù)集,通過(guò)房子的面積,房間數(shù)量,房子的層數(shù)來(lái)預(yù)測(cè)房?jī)r(jià)。

占地面積1800尺,房間數(shù)量3間,房子層數(shù)2層-> 房?jī)r(jià)?;

為了方便對(duì)比,我們分別看一下標(biāo)準(zhǔn)化前和標(biāo)準(zhǔn)化后的模型輸出分布是怎么樣的。

 

 

可以看出,標(biāo)準(zhǔn)化前后變量的系數(shù)不同,誤差不同,但是R平方,和變量的t值是相同的。

5.1 解釋有區(qū)別嗎?

那標(biāo)準(zhǔn)化前后得到的公式,怎么來(lái)解釋呢?

 

 

當(dāng)一個(gè)外行人在聽(tīng)解釋的時(shí)候,一定會(huì)問(wèn),什么呀?所有東西都是0,空氣造的房子還能賣(mài)9萬(wàn)?!

接著你會(huì)問(wèn),系數(shù)不同,那預(yù)測(cè)出來(lái)的房?jī)r(jià)會(huì)相同嗎?

5.2 預(yù)測(cè)值有區(qū)別嗎?

現(xiàn)在我們來(lái)預(yù)測(cè)一個(gè)1590尺,3個(gè)臥室,3層的房屋

 

 

我們發(fā)現(xiàn)預(yù)測(cè)出來(lái)的房?jī)r(jià)是一樣的。

這時(shí)你一定會(huì)想,既然結(jié)果都一樣,做不做標(biāo)準(zhǔn)化,都一樣嘛。說(shuō)到這里,我們?cè)倏匆幌,建模時(shí)尋找最優(yōu)解的時(shí)間吧。

5.3 花費(fèi)時(shí)間有區(qū)別嗎?

 

 

 

 

 

 

為什么標(biāo)準(zhǔn)化后的建模時(shí)間會(huì)短呢?這時(shí)候就要說(shuō)起尋找系數(shù)最優(yōu)解-梯度下降法。

標(biāo)準(zhǔn)化前,由于變量的單位相差很大,導(dǎo)致了橢圓型的梯度輪廓。標(biāo)準(zhǔn)化后,把變量變成統(tǒng)一單位,產(chǎn)生了圓形輪廓。由于梯度下降是按切線(xiàn)方向下降,所以導(dǎo)致了系統(tǒng)在橢圓輪廓不停迂回地尋找最優(yōu)解,而圓形輪廓就能輕松找到了。

還有一種比較極端的情況,有時(shí)沒(méi)做標(biāo)準(zhǔn)化,模型始終找不到最優(yōu)解,一直不收斂。

5.4 PCA,Kmeans,KNN需要標(biāo)準(zhǔn)化數(shù)據(jù)嗎?

這種情況下,可見(jiàn)標(biāo)準(zhǔn)化的重要性了吧。

我們?cè)賮?lái)看一下,如果將預(yù)測(cè)房?jī)r(jià)的變量,用PCA方法來(lái)降維,會(huì)不會(huì)對(duì)結(jié)果產(chǎn)生影響。

我們看出在標(biāo)準(zhǔn)化前,用一個(gè)成分就能解釋99%的變量變化,而標(biāo)準(zhǔn)化后一個(gè)成分解釋了75%的變化。 主要原因就是在沒(méi)有標(biāo)準(zhǔn)化的情況下,我們給了居住面積過(guò)大權(quán)重,造成了這個(gè)結(jié)果。

 

 

 

 

那還有什么情況下,不做歸一化會(huì)發(fā)生這么大的影響?

Kmeans,KNN一些涉及到距離有關(guān)的算法,或者聚類(lèi)的話(huà),都是需要先做變量標(biāo)準(zhǔn)化的。

舉個(gè)例子,我們將3個(gè)城市分成兩類(lèi),變量有面積和教育程度占比;三個(gè)城市分別是這樣的:

城市A,面積挺大,但是整天發(fā)生偷盜搶劫,教育程度低;
城市B,面積也挺大,治安不錯(cuò),教育程度高;
城市C,面積中等,治安也挺好,教育程度也挺高;

 

 

 

 

我們?nèi)绻蛔鰳?biāo)準(zhǔn)化,直接做聚類(lèi)模型的話(huà),A城市和B城市分在一塊兒了,你想想,一個(gè)治安挺好的城市和一個(gè)整體偷盜搶劫城市分在一起,實(shí)在是有點(diǎn)違反常理。

六、總結(jié)

Tree-based models doesn’t depend on scaling

Non-tree-based models hugely depend on scaling

有時(shí)候,我們必須要特征在0到1之間,此時(shí)就只能用歸一化。有種svm可用來(lái)做單分類(lèi),里面就需要用到歸一化,由于沒(méi)有深入研究,所以我把鏈接放上,感興趣的可以自己看。

當(dāng)然,也不是所有的模型都需要做歸一的,比如模型算法里面有沒(méi)關(guān)于對(duì)距離的衡量,沒(méi)有關(guān)于對(duì)變量間標(biāo)準(zhǔn)差的衡量。比如decision tree 決策樹(shù),他采用算法里面沒(méi)有涉及到任何和距離等有關(guān)的,所以在做決策樹(shù)模型時(shí),通常是不需要將變量做標(biāo)準(zhǔn)化的。

標(biāo)簽: 網(wǎng)絡(luò)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:Python自動(dòng)化測(cè)試框架有哪些?

下一篇:機(jī)器學(xué)習(xí)到底是什么?