中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

如何在機器學(xué)習(xí)項目中使用統(tǒng)計方法的示例

2018-07-25    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用
統(tǒng)計學(xué)和機器學(xué)習(xí)是兩個密切相關(guān)的領(lǐng)域。兩者的界限有時非常模糊,例如有一些明顯屬于統(tǒng)計學(xué)領(lǐng)域的方法可以很好地處理機器學(xué)習(xí)項目中的問題。事實上,機器學(xué)習(xí)預(yù)測建模項目必須通過統(tǒng)計學(xué)方法才能有效的進行。

在本文中,我們將通過實例介紹一些在預(yù)測建模問題中起關(guān)鍵作用的統(tǒng)計學(xué)方法。這將證明,統(tǒng)計學(xué)的有效知識對解決預(yù)測建模問題是必不可少的。

 

10-Examples-of-Where-to-Use-Statistical-

 

1、問題框架

在預(yù)測建模問題中,影響最大的可能就是問題框架了。它要對問題類型做不同的選擇,例如選擇回歸或分類,以及問題的輸入輸出的結(jié)構(gòu)和類型。

問題框架并不總是顯而易見的。對于該領(lǐng)域的初入門者,需要對領(lǐng)域的觀察發(fā)現(xiàn)結(jié)果進行深入研究。而對于那些總是從傳統(tǒng)角度看待問題的領(lǐng)域?qū)<襾碚f,則需要從多角度考慮數(shù)據(jù)。

在構(gòu)思問題框架時統(tǒng)計學(xué)方法能夠幫助探索數(shù)據(jù),包括:

·探索性數(shù)據(jù)分析:通過總結(jié)和可視化探索數(shù)據(jù)的ad hoc視圖。

·數(shù)據(jù)挖掘:自動發(fā)現(xiàn)數(shù)據(jù)中的結(jié)構(gòu)化關(guān)系和模式。

2、數(shù)據(jù)理解

數(shù)據(jù)理解意味著要對變量的分布和變量之間的關(guān)系有一個深入的了解。這些知識有些來自領(lǐng)域的專業(yè)知識,或者需要專業(yè)知識來解釋。然而,不論是領(lǐng)域?qū)<疫是新手都是從這個領(lǐng)域的觀察資料中獲益。

統(tǒng)計方法的兩大分支可用于幫助理解數(shù)據(jù):

·匯總統(tǒng)計:該方法使用統(tǒng)計量總結(jié)變量之間的分布和關(guān)系。

·數(shù)據(jù)可視化:該方法使用可視化方法(如圖解、散點圖、曲線圖)來總結(jié)變量之間的分布和關(guān)系。

3、數(shù)據(jù)清理

通過直接觀察發(fā)現(xiàn)的成果,往往不能作為最原始的數(shù)據(jù)。因為盡管數(shù)據(jù)是數(shù)字化的,它還是會受到進程的影響損害數(shù)據(jù)保真度,并且反過來這些數(shù)據(jù)還會對下游進程或模型造成影響。

一些例子包括:

·數(shù)據(jù)損壞。
·數(shù)據(jù)錯誤。
·數(shù)據(jù)丟失。

識別和修復(fù)數(shù)據(jù)問題的過程被稱為數(shù)據(jù)清理。

統(tǒng)計學(xué)中有些方法可用來進行數(shù)據(jù)清理,例如:

·異常點檢測:識別分布中遠離預(yù)期值的異常值。

·歸責:修復(fù)或填充觀察結(jié)果中的損壞值或缺失值。

4、數(shù)據(jù)選擇

在建模時,并非所有的觀察值或所有的變量都是相關(guān)的。

將數(shù)據(jù)范圍不斷縮小,直到剩余元素對預(yù)測結(jié)果最有效的過程稱為數(shù)據(jù)選擇。

用于數(shù)據(jù)選擇的兩種統(tǒng)計方法為:

·數(shù)據(jù)樣本:系統(tǒng)地從較大數(shù)據(jù)集中創(chuàng)建小的具有代表性的樣本。

·特征選擇:自動識別與輸出結(jié)果最相關(guān)的變量。

5、數(shù)據(jù)準備

通常數(shù)據(jù)是不能直接用于建模的。所以為了匹配已選好的問題框架或?qū)W習(xí)算法,要對數(shù)據(jù)進行一些轉(zhuǎn)換來改變數(shù)據(jù)的形狀或結(jié)構(gòu)。

可使用以下統(tǒng)計方法進行數(shù)據(jù)準備:

·擴展:如標準化、規(guī)范化等方法。

·編碼:類似整數(shù)編碼和熱編碼的方法。

·變換:類似Box-Cox方法那樣的功率轉(zhuǎn)換方法。

6、模型評估

預(yù)測建模問題的關(guān)鍵是評估學(xué)習(xí)方法,當在訓(xùn)練模型中對沒見過的數(shù)據(jù)進行預(yù)測時,需要對模型的技能進行評估。這種訓(xùn)練和評估預(yù)測模型的過程稱為實驗設(shè)計。

·實驗設(shè)計:該方法能夠通過設(shè)計系統(tǒng)實驗來比較獨立變量對輸出結(jié)果的影響,如機器學(xué)習(xí)算法的選擇對預(yù)測精度的影響。

有些實驗設(shè)計的方法可以重新采樣數(shù)據(jù)集,從而更經(jīng)濟的使用數(shù)據(jù)來預(yù)估模型技能。

·重采樣方法:為了訓(xùn)練和評估預(yù)測模型,系統(tǒng)地將數(shù)據(jù)集分成子集的方法。

7、模型配置

一個給定的機器學(xué)習(xí)算法通常具有一套超參數(shù),通過超參數(shù)實現(xiàn)對特定問題量身定制學(xué)習(xí)方法。超參數(shù)的配置本質(zhì)上是經(jīng)驗性的而不是分析性的,所以需要大量實驗來評估不同超參數(shù)值對模型技能的影響。

使用統(tǒng)計的兩個子領(lǐng)域之一對不同超參數(shù)配置之間的結(jié)果進行解釋和比較,即:

·統(tǒng)計假設(shè)檢驗:該方法能在給定結(jié)果的假設(shè)或預(yù)期的情況下,量化觀察結(jié)果的可能性。

·估算統(tǒng)計:能夠用置信區(qū)間量化結(jié)果的不確定性。

8、模型選擇

眾多機器學(xué)習(xí)算法中的某一個也許剛好適用于給定的預(yù)測建模問題。所以,選擇一種方法作為解決方案的過程稱為模型選擇。這可能會涉及到一套標準,不僅要考慮項目利益相關(guān)方,還有對問題評估方法預(yù)測技巧的要求。

可以使用與模型配置一樣的兩類統(tǒng)計方法來解釋不同模型的估算技能,即:統(tǒng)計假設(shè)檢驗和估算統(tǒng)計方法,從而實現(xiàn)模型選擇。

9、模型表示

一旦最終模型得到訓(xùn)練,那它基于真實數(shù)據(jù)部署后就可以進行實際預(yù)測,并呈現(xiàn)出最終結(jié)果。

最終,模型表示的一部分包括展示模型的評估技能。

估計統(tǒng)計領(lǐng)域的一些方法可以通過使用容忍區(qū)間和置信區(qū)間,達到量化機器學(xué)習(xí)模型評估技能的不確定性。

·估計統(tǒng)計。該方法通過置信區(qū)間量化模型技能的不確定性。

10、模型的預(yù)測

最后,是時候使用最終模型對我們不知道的真實結(jié)果預(yù)測新數(shù)據(jù)了。預(yù)測中非常重要的一部分是量化預(yù)測的可信度。

我們可以使用與模型表示一樣的估計統(tǒng)計方法來量化這種不確定性。

總結(jié)

通過本文,你應(yīng)該了解到了統(tǒng)計方法在整個預(yù)測建模項目過程中的重要性。

文章原標題《10 Examples of How to Use Statistical Methods in a Machine Learning Project》

作者:Jason Brownlee

譯者:奧特曼

標簽: 大數(shù)據(jù) 數(shù)據(jù)分析

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:李飛飛親自宣布:Google 第三代 Cloud TPU 要來了

下一篇:英雄聯(lián)盟如何指揮團戰(zhàn)?AI幫你做決策