機(jī)器學(xué)習(xí)者都應(yīng)該知道的五種損失函數(shù)！

2018-06-23 來源：

容器云強(qiáng)勢(shì)上線！快速搭建集群，上萬Linux鏡像隨意使用

在機(jī)器學(xué)習(xí)中，所有的機(jī)器學(xué)習(xí)算法都或多或少的依賴于對(duì)目標(biāo)函數(shù)最大化或者最小化的過程，我們常常把最小化的函數(shù)稱為損失函數(shù)，它主要用于衡量機(jī)器學(xué)習(xí)模型的預(yù)測(cè)能力。在尋找最小值的過程中，我們最常用的方法是梯度下降法。

雖然損失函數(shù)可以讓我們看到模型的優(yōu)劣，并且為我們提供了優(yōu)化的方向，但是我們必須知道沒有任何一種損失函數(shù)適用于所有的模型。損失函數(shù)的選取依賴于參數(shù)的數(shù)量、異常值、機(jī)器學(xué)習(xí)算法、梯度下降的效率、導(dǎo)數(shù)求取的難易和預(yù)測(cè)的置信度等若干方面。這篇文章將介紹各種不同的損失函數(shù)，并幫助我們理解每種損失函數(shù)的優(yōu)劣和適用范圍。

由于機(jī)器學(xué)習(xí)的任務(wù)不同，損失函數(shù)一般分為分類和回歸兩類，回歸會(huì)預(yù)測(cè)給出一個(gè)數(shù)值結(jié)果而分類則會(huì)給出一個(gè)標(biāo)簽。這篇文章主要集中于回歸損失函數(shù)的分析。本文中所有的代碼和圖片都可以在這個(gè)地方找到!

回歸函數(shù)預(yù)測(cè)數(shù)量，分類函數(shù)預(yù)測(cè)標(biāo)簽

回歸損失函數(shù)

1.均方誤差、平方損失——L2損失：

均方誤差(MSE)是回歸損失函數(shù)中最常用的誤差，它是預(yù)測(cè)值與目標(biāo)值之間差值的平方和，其公式如下所示：

下圖是均方根誤差值的曲線分布，其中最小值為預(yù)測(cè)值為目標(biāo)值的位置。我們可以看到隨著誤差的增加損失函數(shù)增加的更為迅猛。

MSE損失(Y軸)與預(yù)測(cè)(X軸)的關(guān)系圖

2.平均絕對(duì)誤差——L1損失函數(shù)：

平均絕對(duì)誤差(MAE)是另一種常用的回歸損失函數(shù)，它是目標(biāo)值與預(yù)測(cè)值之差絕對(duì)值的和，表示了預(yù)測(cè)值的平均誤差幅度，而不需要考慮誤差的方向(注：平均偏差誤差MBE則是考慮的方向的誤差，是殘差的和)，范圍是0到∞，其公式如下所示：

MAE損失(Y軸)與預(yù)測(cè)(X軸)的關(guān)系圖

平均絕對(duì)誤差和均方誤差(L1&L2)比較：

通常來說，利用均方差更容易求解，但平方絕對(duì)誤差則對(duì)于異常值更穩(wěn)健，下面讓我們對(duì)這兩種損失函數(shù)進(jìn)行具體的分析。

無論哪一種機(jī)器學(xué)習(xí)模型，目標(biāo)都是找到能使目標(biāo)函數(shù)最小的點(diǎn)。在最小值處每一種損失函數(shù)都會(huì)得到最小值。但哪種是更好的指標(biāo)呢?你可以上述筆記本地址自行運(yùn)行代碼，檢查它們的各項(xiàng)指標(biāo)。

讓我們用具體例子看一下，下圖是均方根誤差和平均絕對(duì)誤差的比較(其中均方根誤差的目的是與平均絕對(duì)誤差在量級(jí)上統(tǒng)一):

左邊的圖中預(yù)測(cè)值與目標(biāo)值很接近，誤差與方差都很小，而右邊的圖中由于異常值的存在使得誤差變得很大。

由于均方誤差(MSE)在誤差較大點(diǎn)時(shí)的損失遠(yuǎn)大于平均絕對(duì)誤差(MAE)，它會(huì)給異常值賦予更大的權(quán)重，模型會(huì)全力減小異常值造成的誤差，從而使得模型的整體表現(xiàn)下降。

所以當(dāng)訓(xùn)練數(shù)據(jù)中含有較多的異常值時(shí)，平均絕對(duì)誤差(MAE)更為有效。當(dāng)我們對(duì)所有觀測(cè)值進(jìn)行處理時(shí)，如果利用MSE進(jìn)行優(yōu)化則我們會(huì)得到所有觀測(cè)的均值，而使用MAE則能得到所有觀測(cè)的中值。與均值相比，中值對(duì)于異常值的魯棒性更好，這就意味著平均絕對(duì)誤差對(duì)于異常值有著比均方誤差更好的魯棒性。

但MAE也存在一個(gè)問題，特別是對(duì)于神經(jīng)網(wǎng)絡(luò)來說，它的梯度在極值點(diǎn)處會(huì)有很大的躍變，及時(shí)很小的損失值也會(huì)長(zhǎng)生很大的誤差，這很不利于學(xué)習(xí)過程。為了解決這個(gè)問題，需要在解決極值點(diǎn)的過程中動(dòng)態(tài)減小學(xué)習(xí)率。MSE在極值點(diǎn)卻有著良好的特性，及時(shí)在固定學(xué)習(xí)率下也能收斂。MSE的梯度隨著損失函數(shù)的減小而減小，這一特性使得它在最后的訓(xùn)練過程中能得到更精確的結(jié)果(如下圖)。

在實(shí)際訓(xùn)練過程中，如果異常值對(duì)于實(shí)際業(yè)務(wù)十分重要需要進(jìn)行檢測(cè)，MSE是更好的選擇，而如果在異常值極有可能是壞點(diǎn)的情況下MAE則會(huì)帶來更好的結(jié)果。

總結(jié)：L1損失對(duì)于異常值更魯棒，但它的導(dǎo)數(shù)不連續(xù)使得尋找最優(yōu)解的過程低效;L2損失對(duì)于異常值敏感，但在優(yōu)化過程中更為穩(wěn)定和準(zhǔn)確。更詳細(xì)的L1和L2不同比較可以參考這篇文章。

但現(xiàn)實(shí)中還存在兩種損失都很難處理的問題。例如某個(gè)任務(wù)中90%的數(shù)據(jù)都符合目標(biāo)值——150，而其余的10%數(shù)據(jù)取值則在0-30之間。那么利用MAE優(yōu)化的模型將會(huì)得到150的預(yù)測(cè)值而忽略的剩下的10%(傾向于中值);而對(duì)于MSE來說由于異常值會(huì)帶來很大的損失，將使得模型傾向于在0-30的方向取值。這兩種結(jié)果在實(shí)際的業(yè)務(wù)場(chǎng)景中都是我們不希望看到的。

3.Huber損失——平滑平均絕對(duì)誤差

Huber損失相比于平方損失來說對(duì)于異常值不敏感，但它同樣保持了可微的特性。它基于絕對(duì)誤差但在誤差很小的時(shí)候變成了平方誤差。我們可以使用超參數(shù)δ來調(diào)節(jié)這一誤差的閾值。當(dāng)δ趨向于0時(shí)它就退化成了MAE，而當(dāng)δ趨向于無窮時(shí)則退化為了MSE，其表達(dá)式如下，是一個(gè)連續(xù)可微的分段函數(shù)：

對(duì)于Huber損失來說，δ的選擇十分重要，它決定了模型處理異常值的行為。當(dāng)殘差大于δ時(shí)使用L1損失，很小時(shí)則使用更為合適的L2損失來進(jìn)行優(yōu)化。

Huber損失函數(shù)克服了MAE和MSE的缺點(diǎn)，不僅可以保持損失函數(shù)具有連續(xù)的導(dǎo)數(shù)，同時(shí)可以利用MSE梯度隨誤差減小的特性來得到更精確的最小值，也對(duì)異常值具有更好的魯棒性。

而Huber損失函數(shù)的良好表現(xiàn)得益于精心訓(xùn)練的超參數(shù)δ。

4.Log-Cosh損失函數(shù)

Log-Cosh損失函數(shù)是一種比L2更為平滑的損失函數(shù)，利用雙曲余弦來計(jì)算預(yù)測(cè)誤差：

它的優(yōu)點(diǎn)在于對(duì)于很小的誤差來說log(cosh(x))與(x**2)/2很相近，而對(duì)于很大的誤差則與abs(x)-log2很相近。這意味著log cosh損失函數(shù)可以在擁有MSE優(yōu)點(diǎn)的同時(shí)也不會(huì)受到異常值的太多影響。它擁有Huber的所有優(yōu)點(diǎn)，并且在每一個(gè)點(diǎn)都是二次可導(dǎo)的。二次可導(dǎo)在很多機(jī)器學(xué)習(xí)模型中是十分必要的，例如使用牛頓法的XGBoost優(yōu)化模型(Hessian矩陣)。

XgBoost中使用的目標(biāo)函數(shù)，注意對(duì)一階和二階導(dǎo)數(shù)的依賴性

但是Log-cosh損失并不是完美無缺的，它還是會(huì)在很大誤差的情況下梯度和hessian變成了常數(shù)。

Huber和Log-cosh損失函數(shù)的Python代碼：

5.分位數(shù)損失(Quantile Loss)

在大多數(shù)真實(shí)世界的預(yù)測(cè)問題中，我們常常希望看到我們預(yù)測(cè)結(jié)果的不確定性。通過預(yù)測(cè)出一個(gè)取值區(qū)間而不是一個(gè)個(gè)具體的取值點(diǎn)對(duì)于具體業(yè)務(wù)流程中的決策至關(guān)重要。

分位數(shù)損失函數(shù)在我們需要預(yù)測(cè)結(jié)果的取值區(qū)間時(shí)是一個(gè)特別有用的工具。通常情況下我們利用最小二乘回歸來預(yù)測(cè)取值區(qū)間主要基于這樣的假設(shè)：取值殘差的方差是常數(shù)。但很多時(shí)候?qū)τ诰€性模型是不滿足的。這時(shí)候就需要分位數(shù)損失函數(shù)和分位數(shù)回歸來拯救回歸模型了。它對(duì)于預(yù)測(cè)的區(qū)間十分敏感，即使在非均勻分布的殘差下也能保持良好的性能。下面讓我們用兩個(gè)例子看看分位數(shù)損失在異方差數(shù)據(jù)下的回歸表現(xiàn)。

左：線性關(guān)系b / w X1和Y.具有恒定的殘差方差。右：線性關(guān)系b / w X2和Y，但Y的方差隨著X2增加。

上圖是兩種不同的數(shù)據(jù)分布，其中左圖是殘差的方差為常數(shù)的情況，而右圖則是殘差的方差變化的情況。我們利用正常的最小二乘對(duì)上述兩種情況進(jìn)行了估計(jì)，其中橙色線為建模的結(jié)果。但是我們卻無法得到取值的區(qū)間范圍，這時(shí)候就需要分位數(shù)損失函數(shù)來提供。

上圖中上下兩條虛線基于0.05和0.95的分位數(shù)損失得到的取值區(qū)間，從圖中可以清晰地看到建模后預(yù)測(cè)值得取值范圍。

了解分位數(shù)損失函數(shù)

分位數(shù)回歸的目標(biāo)在于估計(jì)給定預(yù)測(cè)值的條件分位數(shù)。實(shí)際上分位數(shù)回歸就是平均絕對(duì)誤差的一種拓展。分位數(shù)值得選擇在于我們是否希望讓正的或者負(fù)的誤差發(fā)揮更大的價(jià)值。損失函數(shù)會(huì)基于分位數(shù)γ對(duì)過擬合和欠擬合的施加不同的懲罰。例如選取γ為0.25時(shí)意味著將要懲罰更多的過擬合而盡量保持稍小于中值的預(yù)測(cè)值。

γ的取值通常在0-1之間，圖中描述了不同分位數(shù)下的損失函數(shù)情況，明顯可以看到對(duì)于正負(fù)誤差不平衡的狀態(tài)。

分位數(shù)損失(Y軸)與預(yù)測(cè)(X軸)的關(guān)系圖。

我們可以利用分位數(shù)損失函數(shù)來計(jì)算出神經(jīng)網(wǎng)絡(luò)或者樹狀模型的區(qū)間。下圖是計(jì)算出基于梯度提升樹回歸器的取值區(qū)間：

使用分位數(shù)損失的預(yù)測(cè)區(qū)間(梯度提升回歸器)

90%的預(yù)測(cè)值起上下邊界分別是用γ值為0.95和0.05計(jì)算得到的。

比較研究：

在文章的最后，我們利用sinc(x)模擬的數(shù)據(jù)來對(duì)不同損失函數(shù)的性能進(jìn)行了比較。在原始數(shù)據(jù)的基礎(chǔ)上加入而高斯噪聲和脈沖噪聲(為了描述魯棒性)。下圖是GBM回歸器利用不同的損失函數(shù)得到的結(jié)果，其中ABCD圖分別是MSE, MAE, Huber, Quantile損失函數(shù)的結(jié)果：

將一個(gè)平滑的GBM擬合成有噪聲的sinc(x)數(shù)據(jù)的示例：(E)原始sinc(x)函數(shù);(F)符合MSE和MAE損失的平滑GBM;(G)平滑GBM，其具有Huber損耗，δ= {4,2,1};(H)光滑的GBM與α= {0.5,0.1,0.9}的分位數(shù)損失相符合。

我們可以看到MAE損失函數(shù)的預(yù)測(cè)值受到?jīng)_擊噪聲的影響更小，而MSE則有一定的偏差;Huber損失函數(shù)對(duì)于超參數(shù)的選取不敏感，同時(shí)分位數(shù)損失在對(duì)應(yīng)的置信區(qū)間內(nèi)給出了較好的估計(jì)結(jié)果。

希望小伙伴們能從這篇文章中更深入地理解損失函數(shù)，并在未來的工作中選擇合適的函數(shù)來更好更快地完成工作任務(wù)。

將本文中幾種損失函數(shù)都放到一個(gè)圖中的結(jié)果：

文章原標(biāo)題《5 Regression Loss Functions All Machine Learners Should Know》

作者簡(jiǎn)介：Prince Grover，數(shù)據(jù)科學(xué)系學(xué)生，機(jī)器學(xué)習(xí)實(shí)習(xí)生和IIT畢業(yè)生，已經(jīng)為航空航天，石油和天然氣，汽車和房地產(chǎn)行業(yè)提供3年以上的端到端數(shù)據(jù)驅(qū)動(dòng)產(chǎn)品。渴望將機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技能應(yīng)用于行業(yè)，解決令人興奮的新問題。

標(biāo)簽：代碼網(wǎng)絡(luò)

版權(quán)申明：本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請(qǐng)聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)！
本站所提供的圖片等素材，版權(quán)歸原作者所有，如需使用，請(qǐng)與原作者聯(lián)系。

上一篇:貴州政府為大數(shù)據(jù)云計(jì)算人工智能發(fā)展提出37條“意見” ：將引進(jìn)云巨頭

下一篇:分布式實(shí)時(shí)計(jì)算系統(tǒng)Storm架構(gòu)與運(yùn)行原理

相關(guān)文章

最新資訊

熱門推薦

為學(xué)習(xí)和知識(shí)分享目的，本站文章部分自網(wǎng)絡(luò)，本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請(qǐng)聯(lián)系：2653426586@qq.com QQ：2653426586

如有其他需求，請(qǐng)聯(lián)系：2653426586@qq.com QQ：2653426586

友情鏈接：網(wǎng)絡(luò)安全運(yùn)維經(jīng)驗(yàn) IT技術(shù)分享運(yùn)維隨筆錄鮮花東郊到家往約到家

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

機(jī)器學(xué)習(xí)者都應(yīng)該知道的五種損失函數(shù)！