中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

機(jī)器學(xué)習(xí)算法概述:隨機(jī)森林&邏輯回歸

2018-08-19    來源:raincent

容器云強(qiáng)勢上線!快速搭建集群,上萬Linux鏡像隨意使用

 

隨機(jī)森林是用于分類和回歸的監(jiān)督式集成學(xué)習(xí)模型。為了使整體性能更好,集成學(xué)習(xí)模型聚合了多個(gè)機(jī)器學(xué)習(xí)模型。因?yàn)槊總(gè)模型單獨(dú)使用時(shí)性能表現(xiàn)的不是很好,但如果放在一個(gè)整體中則很強(qiáng)大。在隨機(jī)森林模型下,使用大量“弱”因子的決策樹,來聚合它們的輸出,結(jié)果能代表“強(qiáng)”的集成。

權(quán)衡偏差與方差

在任何機(jī)器學(xué)習(xí)模型中,有兩個(gè)誤差來源:偏差和方差。為了更好地說明這兩個(gè)概念,假設(shè)已創(chuàng)建了一個(gè)機(jī)器學(xué)習(xí)模型并已知數(shù)據(jù)的實(shí)際輸出,用同一數(shù)據(jù)的不同部分對其進(jìn)行訓(xùn)練,結(jié)果機(jī)器學(xué)習(xí)模型在數(shù)據(jù)的不同部分產(chǎn)生了不同的輸出。為了確定偏差和方差,對這兩個(gè)輸出進(jìn)行比較,偏差是機(jī)器學(xué)習(xí)模型中預(yù)測值與實(shí)際值之間的差異,而方差則是這些預(yù)測值的分布情況。

簡而言之:

偏差是當(dāng)算法作了太多簡化假設(shè)之后出現(xiàn)的錯(cuò)誤,這導(dǎo)致模型預(yù)測值與實(shí)際值有所出入。

方差是由于算法對訓(xùn)練數(shù)據(jù)集中小變化的敏感性而產(chǎn)生的誤差;方差越大,意味著算法受數(shù)據(jù)變化的影響更大。

理想情況下,偏差和方差都會很小,這意味模型在相同數(shù)據(jù)集的不同數(shù)據(jù)中的預(yù)測值很接近真值。當(dāng)這種情況發(fā)生時(shí),模型可以精確地學(xué)習(xí)數(shù)據(jù)集中的潛在模式。

隨機(jī)森林是一種減少方差的算法

決策樹以高方差、低偏差為人所知。這主要是因?yàn)樗軌驅(qū)?fù)雜的關(guān)系,甚至是過擬合數(shù)據(jù)中的噪聲進(jìn)行建模。簡單地說:決策樹訓(xùn)練的模型通常是精確的,但常常在同一數(shù)據(jù)集中的不同數(shù)據(jù)樣本之間顯示出很大程度的變化。

隨機(jī)森林通過聚合單個(gè)決策樹的不同輸出來減少可能導(dǎo)致決策樹錯(cuò)誤的方差。通過多數(shù)投票算法,我們可以找到大多數(shù)單個(gè)樹給出的平均輸出,從而平滑了方差,這樣模型就不容易產(chǎn)生離真值更遠(yuǎn)的結(jié)果。

隨機(jī)森林思想是取一組高方差、低偏差的決策樹,并將它們轉(zhuǎn)換成低方差、低偏差的新模型。

為什么隨機(jī)森林是隨機(jī)的?

隨機(jī)森林中的隨機(jī)來源于算法用訓(xùn)練數(shù)據(jù)的不同子集訓(xùn)練每個(gè)單獨(dú)的決策樹,用數(shù)據(jù)中隨機(jī)選擇的屬性對每個(gè)決策樹的每個(gè)節(jié)點(diǎn)進(jìn)行分割。通過引入這種隨機(jī)性元素,該算法能夠創(chuàng)建彼此不相關(guān)的模型。這導(dǎo)致可能的誤差均勻分布在模型中,意味著誤差最終會通過隨機(jī)森林模型的多數(shù)投票決策策略被消除。

隨機(jī)森林實(shí)際是如何工作的?

想象一下,你厭倦了一遍又一遍地聽著同樣的電子音樂,強(qiáng)烈地想找到一些可能喜歡的新音樂,所以你上網(wǎng)去尋找推薦,找到了能讓真實(shí)的人根據(jù)你的喜好給你音樂建議的一個(gè)網(wǎng)站。

那么它是如何工作的呢?首先,為了避免建議的隨機(jī)性,先填寫一份關(guān)于自己的基本音樂喜好的問卷,為可能喜歡的音樂類型提供一個(gè)標(biāo)準(zhǔn)。然后網(wǎng)友利用這些信息開始根據(jù)你提供的標(biāo)準(zhǔn)(特征)來分析歌曲,此時(shí)每個(gè)人本質(zhì)上都是一個(gè)決策樹。

就個(gè)人而言,網(wǎng)上提出建議的人并不能很好地概括你的音樂喜好。比如,有人可能會認(rèn)為你不喜歡80年代之前的任何歌曲,因此不會給你推薦這些歌曲。但是這假設(shè)可能不準(zhǔn)確,并可能會導(dǎo)致你不會收到喜歡的音樂的建議。

為什么會發(fā)生這種錯(cuò)誤?每一個(gè)推薦人對你的喜好的了解都是有限的,而且他們對自己個(gè)人的音樂品味也是有偏見的。為了解決這個(gè)問題,我們統(tǒng)計(jì)來自許多個(gè)人的建議(每個(gè)人都扮演決策樹的角色),并對他們的建議使用多數(shù)投票算法(本質(zhì)上是創(chuàng)建一個(gè)隨機(jī)森林)。

然而,還有一個(gè)問題——因?yàn)槊總(gè)人都在使用來自同一份問卷的相同數(shù)據(jù),因此得出的建議將會是類似的,而且可能具有高度的偏見和相關(guān)性。為了擴(kuò)大建議的范圍,每個(gè)推薦人都會得到一組調(diào)查問卷的隨機(jī)答案,而不是所有的答案,這意味著他們的推薦標(biāo)準(zhǔn)更少。最后,通過多數(shù)投票消除了極端異常值,你就會得到一個(gè)準(zhǔn)確而多樣的推薦歌曲列表。

總結(jié)

隨機(jī)森林的優(yōu)點(diǎn):

1.不需要特征歸一化;

2.可并行化:單個(gè)決策樹可以并行訓(xùn)練;

3.廣泛使用的;

4.減少過擬合;

隨機(jī)森林的缺點(diǎn):

1.不容易解釋

2.不是最先進(jìn)的方法

 

 

邏輯回歸是一個(gè)使用分類因變量預(yù)測結(jié)果的監(jiān)督式統(tǒng)計(jì)模型。分類變量的值為名稱或標(biāo)簽,例如:贏/輸、健康/生病或成功/失敗。該模型也可用于兩類以上的因變量,這種情況稱多項(xiàng)邏輯回歸。

邏輯回歸是基于歷史信息構(gòu)建給定數(shù)據(jù)集的分類規(guī)則,這些數(shù)據(jù)集被劃分為不同的類別。模型公式為:

 

 

相關(guān)術(shù)語定義如下:

c=1,...,C是因變量Y的所有可能類別;

P(Y=c)是因變量為類別c的概率;

\beta_{{i}},i=1,...,I是回歸系數(shù),當(dāng)進(jìn)行轉(zhuǎn)換時(shí),表示每個(gè)變量在解釋概率方面的重要性;

X_{{i}},i=1,...,I是自變量。

我們將使用之前博文中的鳶尾花數(shù)據(jù)集來說明邏輯回歸是如何工作的。這些數(shù)據(jù)由150種鳶尾花組成,按照植物種類(這個(gè)數(shù)據(jù)集中有三種不同的種類)、萼片和花瓣長度、萼片和花瓣寬度等特征進(jìn)行分類,我們僅使用萼片和花瓣來描述每朵鳶尾花。我們還將建立一個(gè)分類規(guī)則來判斷數(shù)據(jù)集中引入的新植物的種類。圖1展示了一朵鳶尾的萼片和花瓣的尺寸。

 

 

首先,我們必須將數(shù)據(jù)集分成兩個(gè)子集:訓(xùn)練和測試。訓(xùn)練集占整個(gè)數(shù)據(jù)集的60%,用于使模型與數(shù)據(jù)相匹配,測試集占其余40%的數(shù)據(jù),用于檢查模型是否與給定的數(shù)據(jù)正確匹配。

利用上述公式,我們將數(shù)據(jù)擬合到邏輯回歸模型中。在這種情況下,因變量為植物種類,類別數(shù)等于3,自變量(x_{{i}},i=1,...4\right)是萼片和花瓣的長度和寬度。圖2顯示了數(shù)據(jù)的一個(gè)子集。

 

 

表1給出了三種植物中每個(gè)自變量系數(shù)的估計(jì)。顯而易見,花瓣的長度和寬度是特征描述過程中最重要的變量。因此,在每個(gè)物種的特征重要性圖中強(qiáng)調(diào)了這兩個(gè)變量(圖3)。

 

 

接下來,我們創(chuàng)建了一個(gè)混淆矩陣(誤差矩陣)來檢驗(yàn)?zāi)P偷男阅堋_@個(gè)矩陣把測試數(shù)據(jù)集中已知的鳶尾花植物類別與擬合模型預(yù)測的鳶尾花植物類別進(jìn)行比較,我們的目標(biāo)是兩者相同。在表2中,我們看到模型的性能相對較好,只有兩種花色植物被錯(cuò)誤分類。

 

 

基于這些結(jié)果,我們能夠?qū)?shù)據(jù)集中的各種鳶尾植物進(jìn)行正確的分類。然而,正如前面提到的,我們現(xiàn)在必須制定一個(gè)分類規(guī)則。接著是通過新鳶尾屬植物的自變量值乘以表1中的系數(shù)估計(jì)來計(jì)算新鳶尾植物屬于給定類別的概率,新鳶尾的結(jié)果如下表3所示:

 

 

然后,我們使用前面的公式計(jì)算了鳶尾植物為各個(gè)類別的概率。結(jié)果證實(shí)上述鳶尾植物很可能屬于維吉尼亞鳶尾。

 

 

總結(jié)

邏輯回歸的優(yōu)點(diǎn):

1.可解釋性;

2.模型簡單;

3.可擴(kuò)展性;

邏輯回歸的缺點(diǎn):

假設(shè)特征之間的相對獨(dú)立性;

文章原標(biāo)題《machine-learning-algorithms-explained-random-forests》,

作者: albahnsen譯者:虎說八道

標(biāo)簽:

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:美國數(shù)據(jù)治理有何新動向?

下一篇:大數(shù)據(jù)+人工智能正以八種方式撼動商界