中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

一文解析統(tǒng)計學(xué)在機(jī)器學(xué)習(xí)中的重要性(附學(xué)習(xí)包)

2018-08-01    來源:raincent

容器云強(qiáng)勢上線!快速搭建集群,上萬Linux鏡像隨意使用


統(tǒng)計是一組工具,你可以使用這些工具來探求數(shù)據(jù)方面的重要問題。

你可以使用描述性統(tǒng)計方法將原始觀測數(shù)據(jù)轉(zhuǎn)換為你可以理解和共享的信息,也可以使用推斷統(tǒng)計方法,通過數(shù)據(jù)的小樣本對整個域進(jìn)行推理。

在這篇文章中,你將明晰為什么統(tǒng)計對于通用應(yīng)用和機(jī)器學(xué)習(xí)如此重要,并大致了解各種可用的方法。

本文中你將了解到:

•  統(tǒng)計通常被認(rèn)為是應(yīng)用機(jī)器學(xué)習(xí)領(lǐng)域的先決條件。

•  我們需要利用統(tǒng)計將觀測結(jié)果轉(zhuǎn)化為信息,并回答有關(guān)觀測樣本的問題。

•  統(tǒng)計是數(shù)百年來開發(fā)的一組工具,用于匯總數(shù)據(jù)和量化給定觀測樣本的域的屬性。

那我們開始吧!

統(tǒng)計是必備的先決條件

機(jī)器學(xué)習(xí)和統(tǒng)計是兩個密切相關(guān)的研究領(lǐng)域,統(tǒng)計學(xué)家把機(jī)器學(xué)習(xí)稱為“應(yīng)用統(tǒng)計”或“統(tǒng)計學(xué)習(xí)”,而不是以計算機(jī)科學(xué)為主來命名。

對于初學(xué)者而言,機(jī)器學(xué)習(xí)的前提是他應(yīng)具備一定的統(tǒng)計學(xué)背景。我們可以用挑選櫻桃的例子來做個解釋。

請先看一本流行的實用機(jī)器學(xué)習(xí)書《應(yīng)用預(yù)測建!分械囊痪湓挘

 ”讀者應(yīng)掌握一些基本統(tǒng)計知識,包括方差、相關(guān)、簡單線性回歸和基本假設(shè)檢驗(如p值和檢驗統(tǒng)計)“

——《應(yīng)用預(yù)測建模》2013年 第7頁 


流行書籍《統(tǒng)計學(xué)習(xí)入門》中也有這樣的例子:
 

”我們期望讀者至少有一門統(tǒng)計學(xué)基礎(chǔ)課程。“

——《統(tǒng)計學(xué)習(xí)介紹及其在R語言中的應(yīng)用》

2013年 第9頁 

即使統(tǒng)計學(xué)不是先決條件,但還是需要一些簡單的先導(dǎo)知識,正如廣為人知的《編程集體智慧》一書的引語所言:

“這本書并不認(rèn)為你事先就知道[…]或統(tǒng)計學(xué)[…] 但是,掌握一些三角學(xué)和基本統(tǒng)計知識將有助于你理解算法。”

——《編程集體智慧:構(gòu)建智能Web 2.0應(yīng)用程序》

2007年 第13頁

為了能夠更好地理解機(jī)器學(xué)習(xí),需要對統(tǒng)計學(xué)有一些基本的概念。

欲知其中緣由,我們首先必須明白為何要了解統(tǒng)計學(xué)領(lǐng)域的知識。

為什么要學(xué)統(tǒng)計學(xué)?

單獨的原始觀察數(shù)據(jù)只是數(shù)據(jù),它們還不是信息或知識。

有了原始數(shù)據(jù),那么接下來的問題是:

•  什么是最常見或可預(yù)期的觀測?

• 觀測的限制條件是什么?

• 數(shù)據(jù)是什么樣子的?

雖然這些問題看起來很簡單,但必須回答這些問題,才能將原始觀察的數(shù)據(jù)轉(zhuǎn)化為我們可以使用和分享的信息。

除了原始數(shù)據(jù),我們還可以設(shè)計實驗來采集觀測數(shù)據(jù)。根據(jù)這些實驗結(jié)果,我們可能獲得更為復(fù)雜的問題,例如:

• 哪些變量是最相關(guān)的?

• 兩個實驗的結(jié)果有什么不同?

• 數(shù)據(jù)中的差異是真實的還是噪聲的結(jié)果?

這類問題很重要,其結(jié)果對項目、利益相關(guān)者和有效決策都很重要。

我們需要用統(tǒng)計方法來找到數(shù)據(jù)問題的答案。

這樣看來,我們需要利用統(tǒng)計方法,不但用它來了解用于訓(xùn)練機(jī)器學(xué)習(xí)模型的數(shù)據(jù),而且用它來解釋測試不同機(jī)器學(xué)習(xí)模型的結(jié)果。

這只是冰山一角,因為預(yù)測建模項目的每一步都需要用到統(tǒng)計方法。

什么是統(tǒng)計學(xué)?

統(tǒng)計學(xué)是數(shù)學(xué)的一個子領(lǐng)域。

它指的是處理數(shù)據(jù)和使用數(shù)據(jù)回答問題的方法集合。

 統(tǒng)計學(xué)是對疑難問題進(jìn)行數(shù)值猜想的藝術(shù)。[…]這些方法是幾百年來由那些為自己的問題尋找答案的人開發(fā)出來 的。

——《統(tǒng)計》第四版 

2007年 第13頁 

由于該領(lǐng)域采用抓斗袋的方法來處理數(shù)據(jù),對于初學(xué)者來說,它可能看起來大而無形。統(tǒng)計方法和其他研究領(lǐng)域的方法之間很難區(qū)分開來。通常,一種技術(shù)既可以是一種經(jīng)典的統(tǒng)計方法,也可以是一種用于特征選擇或建模的現(xiàn)代算法。

雖然統(tǒng)計知識并非沒有深奧的理論知識,但從統(tǒng)計與概率的關(guān)系中得出的一些重要、容易理解的定理,可以提供有價值的理論基礎(chǔ)。

舉兩個例子:大數(shù)定律和中心極限定理。

第一個可以幫助我們理解為什么較大的樣本往往更好,第二個定理為我們比較樣本之間的期望值(例如:平均值)提供基礎(chǔ)。

當(dāng)涉及我們在實踐中使用的統(tǒng)計工具時,可以將統(tǒng)計領(lǐng)域分為兩大類:

• 描述性統(tǒng)計用于總結(jié)數(shù)據(jù)

• 推理統(tǒng)計用于從數(shù)據(jù)樣本中得出結(jié)論

"統(tǒng)計數(shù)據(jù)使研究人員能夠從大量的采集到的信息或數(shù)據(jù),從中總結(jié)出典型的經(jīng)驗。[…]統(tǒng)計數(shù)據(jù)也用導(dǎo)出關(guān)于群體間普遍差異的結(jié)論。[…]統(tǒng)計數(shù)據(jù)也可以用來判斷兩個變量的得分是否相關(guān),并進(jìn)行預(yù)測。"

——《統(tǒng)計概述》 第三版 

2010年 第9—10頁 


描述統(tǒng)計(學(xué))

描述性統(tǒng)計是指將觀察到的原始數(shù)據(jù)匯總成我們可以理解和共享的信息的方法。

通常,我們認(rèn)為描述性統(tǒng)計是對數(shù)據(jù)樣本統(tǒng)計值的計算,以便總結(jié)數(shù)據(jù)樣本的屬性,例如共同的期望值(例如平均值或中值)和數(shù)據(jù)的價差(例如方差或標(biāo)準(zhǔn)偏差)。

描述性統(tǒng)計還涵蓋利用圖形方法對數(shù)據(jù)樣本進(jìn)行可視化。圖表和圖形可以提供對觀測的形狀或分布以及變量的相關(guān)做出定性理解。

推斷統(tǒng)計

推斷統(tǒng)計是一個有意思的名稱,它是通過從一組較小的被稱為樣本的觀察數(shù)據(jù)進(jìn)行量化從而提煉出域或總體屬性的方法。

通常,我們認(rèn)為推斷統(tǒng)計是從總體分布中估計出特征值,如期望值或價差的估計等等。

可以利用復(fù)雜的統(tǒng)計推斷工具來量化給定觀測數(shù)據(jù)樣本的概率。這些工具通常被稱為統(tǒng)計假設(shè)檢驗工具,其中檢驗的基本假設(shè)稱為零假設(shè)。

有許多推斷統(tǒng)計方法的例子,為增加測試數(shù)據(jù)的正確性,我們可以對假設(shè)的范圍做出限定。

延展閱讀

如果你想深入研究,本節(jié)將提供更多關(guān)于該主題的資源。

書籍

• 《應(yīng)用預(yù)測建!,2013年

• 《R語言應(yīng)用程序統(tǒng)計學(xué)習(xí)導(dǎo)論》,2013年

• 《編程集智能:構(gòu)建智能Web 2.0應(yīng)用程序》,2007年

• 《統(tǒng)計》,第四版,2007年

• 《統(tǒng)計:統(tǒng)計推斷的簡明課程》,2004年

• 《簡明統(tǒng)計》,第三版,2010年。

文章

• 維基百科上的統(tǒng)計

• 門戶:維基百科上的統(tǒng)計

• 維基百科上的統(tǒng)計文章列表

• 維基百科上的數(shù)理統(tǒng)計

• 維基百科上的統(tǒng)計歷史

• 維基百科的描述性統(tǒng)計

• 對維基百科的統(tǒng)計推斷

總結(jié)

在這篇文章中,你已明晰為什么統(tǒng)計在機(jī)器學(xué)習(xí)中如此重要,對于機(jī)器學(xué)習(xí),統(tǒng)計提供了許多通用且可行的方法。

具體而言,總結(jié)如下:

• 統(tǒng)計通常被認(rèn)為是機(jī)器學(xué)習(xí)領(lǐng)域的先決條件。

• 我們需要統(tǒng)計數(shù)據(jù)來將觀測結(jié)果轉(zhuǎn)化為信息,并回答有關(guān)觀測樣本的問題。

• 統(tǒng)計是數(shù)百年來開發(fā)的一組工具,用于匯總數(shù)據(jù)和量化給定觀測樣本的域的屬性。

相關(guān)報道:

https://machinelearningmastery.com/what-is-statistics/

標(biāo)簽:

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:虛擬化安全 “化繁為簡” ,信通院攜手亞信安全

下一篇:TableStore時序數(shù)據(jù)存儲 - 架構(gòu)篇