中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

頻率視角下的機器學(xué)習(xí)

2018-06-13    來源:

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用
在“人工智能基礎(chǔ)課”中我曾提到,“概率”(probability)這個基本概念存在著兩種解讀方式,它們分別對應(yīng)著概率的頻率學(xué)派(Frequentist)和貝葉斯學(xué)派(Bayesian)。而解讀方式上的差異也延伸到了以概率為基礎(chǔ)的其他學(xué)科,尤其是機器學(xué)習(xí)之中。

根據(jù)機器學(xué)習(xí)領(lǐng)域的元老湯姆·米切爾(Tom M. Mitchell)的定義,機器學(xué)習(xí)(machine learning)是一門研究通過計算的手段利用經(jīng)驗來改善系統(tǒng)自身性能的學(xué)科,F(xiàn)如今,幾乎所有的經(jīng)驗都以數(shù)據(jù)的形式出現(xiàn),因而機器學(xué)習(xí)的任務(wù)也就變成了基于已知數(shù)據(jù)構(gòu)造概率模型,反過來再運用概率模型對未知數(shù)據(jù)進行預(yù)測與分析。如此一來,關(guān)于概率的不同認(rèn)識無疑會影響到對模型的構(gòu)建與解釋。

可在概率的應(yīng)用上,頻率學(xué)派和貝葉斯學(xué)派的思路呈現(xiàn)出天壤之別,這種思維上的差異也讓兩派的擁護者勢同水火,都視另一方為異端邪說。正因如此,在這個專欄的前兩篇文章中,我將首先和你理清頻率學(xué)派與貝葉斯學(xué)派對概率的不同觀點,為接下來從不同的角度理解機器學(xué)習(xí)的各種算法打下扎實的基礎(chǔ)。

下面這個流傳已久的笑話,不經(jīng)意間對頻率學(xué)派和貝葉斯學(xué)派的區(qū)別給出了形象的解釋:有個病人找醫(yī)生看病,醫(yī)生檢查之后對他說:“你這病說得上是九死一生,但多虧到我這里來看了。不瞞你說,在你之前我已經(jīng)看了九個得一同樣病的患者,結(jié)果他們都死了,那你這第十個就一定能看得好啦,妥妥的!”

如果病人腦子沒事,肯定就從這個糊涂醫(yī)生那里跑了。顯然,醫(yī)生在看待概率時秉持的是頻率主義的觀點,但卻是個蹩腳的頻率主義者。之所以說他是頻率主義者,是因為他對九死一生的理解就是十次手術(shù)九次失敗一次成功;說他蹩腳則是因為他不懂頻率學(xué)派的基礎(chǔ),區(qū)區(qū)九個病人就讓他自以為掌握了生死的密碼。

歸根到底,頻率學(xué)派口中的概率表示的是事件發(fā)生頻率的極限值,它只有在無限次的獨立重復(fù)試驗之下才有絕對的精確意義。在上面的例子中,如果非要從頻率的角度解釋“九死一生”的話,這個10%的概率只有在樣本容量為無窮大時才有意義。因此即使“九死一生”的概率的確存在,它也不能確保第十個病人的康復(fù)。

在頻率學(xué)派眼中,當(dāng)重復(fù)試驗的次數(shù)趨近于無窮大時,事件發(fā)生的頻率會收斂到真實的概率之上。這種觀點背后暗含了一個前提,那就是概率是一個確定的值,并不會受單次觀察結(jié)果的影響。

將一枚均勻的硬幣拋擲10次,結(jié)果可能是10次都是正面,也可能10次都是反面,寫成頻率的話就對應(yīng)著0%和100%這兩個極端,代表著最大范圍的波動。可如果將拋擲次數(shù)增加到100次,出現(xiàn)正面的次數(shù)依然會發(fā)生變化,但波動的范圍更可能會收縮到40%到60%之間。再將拋擲次數(shù)增加到1000,10000的話,頻率波動的現(xiàn)象不會消失,但波動的范圍會進一步收縮到越來越小的區(qū)間之內(nèi)。

基于以上的邏輯,把根據(jù)頻率計算概率的過程反轉(zhuǎn)過來,就是頻率統(tǒng)計估計參數(shù)的過程。頻率統(tǒng)計理論的核心在于認(rèn)定待估計的參數(shù)是固定不變的常量,討論參數(shù)的概率分布是沒有意義的;而用來估計參數(shù)的數(shù)據(jù)是隨機的變量,每個數(shù)據(jù)都是參數(shù)支配下一次獨立重復(fù)試驗的結(jié)果。由于參數(shù)本身是確定的,那頻率的波動就并非來源于參數(shù)本身的不確定性,而是由有限次觀察造成的干擾而導(dǎo)致。這可以從兩個角度來解釋:一方面,根據(jù)這些不精確的數(shù)據(jù)就可以對未知參數(shù)的精確取值做出有效的推斷;另一方面,數(shù)據(jù)中包含的只是關(guān)于參數(shù)不完全的信息,所以從樣本估計整體就必然會產(chǎn)生誤差。

統(tǒng)計學(xué)的核?任務(wù)之一是根據(jù)從總體中抽取出的樣本,也就是數(shù)據(jù)來估計未知的總體參數(shù)。參數(shù)的最優(yōu)估計可以通過樣本數(shù)據(jù)的分布,也就是采樣分布(sampling distribution)來求解,由于頻率統(tǒng)計將數(shù)據(jù)看作隨機變量,所以計算采樣分布是沒有問題的。確定采樣分布之后,參數(shù)估計可以等效成一個最優(yōu)化的問題,而頻率統(tǒng)計最常使用的最優(yōu)化方法,就是最大似然估計(maximum likelihood estimation)。

回憶一下最大似然估計,它的目標(biāo)是讓似然概率最大化,也就是固定參數(shù)的前提之下,數(shù)據(jù)出現(xiàn)的條件概率最大化。這是頻率學(xué)派估計參數(shù)的基本出發(fā)點:一組數(shù)據(jù)之所以能夠在單次試驗中出現(xiàn),是因為它出現(xiàn)的可能性最大。而參數(shù)估計的過程就是賦予觀測數(shù)據(jù)最大似然概率的過程。這可以通過下面這個簡單的例子來說明:

“如果觀測到的數(shù)據(jù)是真實值θ 和方差為,但形式未知的噪聲 的疊加,那么如何得出θ 的最優(yōu)估計值?”

 

要用最大似然估計解決這個問題,首先就要對似然概率進行建模,建模中的一個重要假設(shè)是假定未知形式的噪聲滿足高斯分布。這不僅在統(tǒng)計學(xué)中,在其他學(xué)科里也是一個常用的假設(shè)。

從理論上說,在功率有限的條件下,高斯噪聲的信源熵最大,因而帶來的不確定性也就越大,換句話說,這是最惡劣的噪聲;從實踐上說,真實的噪聲通常來源于多個獨立的物理過程,都具有不同的概率分布,中心極限定理告訴我們,當(dāng)噪聲源的數(shù)目越來越多時,它們的疊加就趨近于高斯分布,因而高斯噪聲就是對真實情況的一個合理的模擬。

在高斯噪聲的假設(shè)下,每個觀測數(shù)據(jù)所滿足的概率分布就可以寫成

 

 

 

這實際上就是采樣分布。計算所有數(shù)據(jù)的概率分布的乘積,得到的就是似然函數(shù)(likelihood function)

 

 

求解似然函數(shù)的對數(shù),就可以將乘法運算轉(zhuǎn)換為加法運算

 

 

令對數(shù)似然函數(shù)的導(dǎo)數(shù)為0,就求出了使似然概率最大的最優(yōu)估計

 

 

不知道你有沒有在上面的公式中發(fā)現(xiàn)一個問題:雖然真實值θ 是個固定值,但估計值θ^ 卻是數(shù)據(jù)的函數(shù),因而也是個隨機變量。

這一點其實很好理解,因為估計值本質(zhì)上是利用數(shù)據(jù)構(gòu)造出來的函數(shù),既然數(shù)據(jù)是隨機分布的,估計值肯定也是隨機的。這意味著如果每次估計使用的數(shù)據(jù)不同,得到的估計值也不會相同。那么如何來度量作為隨機變量的估計值和作為客觀常量的真實值之間的偏差呢?置信區(qū)間(confidence interval)就是頻率學(xué)派給出的答案。

置信區(qū)間的意義在于劃定了真值的取值范圍,真實的參數(shù)會以一定的概率α α 落入根據(jù)樣本計算出的置信區(qū)間之內(nèi)。當(dāng)然,這里的概率還是要從頻率的角度來解讀:從同一個總體中進行100次采樣可以得到100個不同的樣本,根據(jù)這100個不同的樣本又可以計算出100個不同的置信區(qū)間。在這么多個置信區(qū)間之中,包含真值的有多少個呢?100×α 個,剩下的100×(1−α) 個置信區(qū)間就把真值漏掉了。這有點像亂槍打鳥:每一槍都亂打一梭子,打了100槍之后統(tǒng)計戰(zhàn)果,發(fā)現(xiàn)打下來 100×α 只鳥。如果把參數(shù)的真實值比喻成鳥,那么每一槍轟出的一梭子子彈就是置信區(qū)間。顯然,置信區(qū)間的上下界和估計值一樣,也是隨機變量。

總結(jié)起來,頻率主義解決統(tǒng)計問題的基本思路如下:參數(shù)是確定的,數(shù)據(jù)是隨機的,利用隨機的數(shù)據(jù)推斷確定的參數(shù),得到的結(jié)果也是隨機的。

這種思路直接把可能的參數(shù)空間壓縮成為一個點:參數(shù)本身可能滿足這樣或者那樣的概率分布,但一旦試驗的條件確定,參數(shù)表現(xiàn)出來的就是一個固定的取值,讓所有的概率分布都失去了意義。這就像說即使上帝真的擲骰子,但從骰子脫手那一刻起,它的點數(shù)就不再受上帝的控制,也就變成了確定不變的取值。頻率主義者關(guān)注的就是這個真實存在的唯一參數(shù),通過計算它對數(shù)據(jù)的影響來實現(xiàn)估計。

將頻率主義“參數(shù)確定,數(shù)據(jù)隨機”的思路應(yīng)用在機器學(xué)習(xí)當(dāng)中,得到的就是統(tǒng)計機器學(xué)習(xí)(statistical learning)。統(tǒng)計機器學(xué)習(xí)的做法是通過對給定的指標(biāo)(比如似然函數(shù)或者均方誤差)進行最優(yōu)化,來估計模型中參數(shù)的取值,估計時并不考慮參數(shù)的不確定性,也就是不考慮未知參數(shù)的先驗分布。和參數(shù)相關(guān)的信息全部來源于數(shù)據(jù),輸出的則是未知參數(shù)唯一的估計結(jié)果,這是統(tǒng)計機器學(xué)習(xí)的核心特征。

受噪聲和干擾的影響,觀測數(shù)據(jù)并不是未知參數(shù)的準(zhǔn)確反映,因此如何衡量估計結(jié)果的精確程度就成為統(tǒng)計機器學(xué)習(xí)中的一個關(guān)鍵問題。損失函數(shù)(loss function)直接定義了模型性能的度量方式,其數(shù)學(xué)期望被稱為風(fēng)險(risk),風(fēng)險最小化就是參數(shù)估計的依據(jù)和準(zhǔn)則。但風(fēng)險的計算并不能一蹴而就:估計最優(yōu)參數(shù)需要計算風(fēng)險,計算風(fēng)險時需要在數(shù)據(jù)的概率分布上對損失函數(shù)進行積分,可表示數(shù)據(jù)的分布又需要依賴未知參數(shù)的精確取值。這就給頻率主義出了一個無解的問題:風(fēng)險函數(shù)是沒有辦法精確求解的。

為了解決這個問題,統(tǒng)計機器學(xué)習(xí)引入了經(jīng)驗風(fēng)險(empirical risk),用訓(xùn)練數(shù)據(jù)的經(jīng)驗分布替換掉原始表達式中數(shù)據(jù)的真實分布,借此將風(fēng)險函數(shù)轉(zhuǎn)化成了可計算的數(shù)值。在真實的學(xué)習(xí)算法中,無論是分類問題中的誤分類率,還是回歸問題的中的均方誤差,都是經(jīng)驗風(fēng)險的實例,而所謂的最優(yōu)模型也就是使經(jīng)驗風(fēng)險最小化(empirical risk minimization)的那個模型。

今天我和你分享了頻率學(xué)派對概率、統(tǒng)計學(xué)和機器學(xué)習(xí)的認(rèn)識方式,其要點如下:

頻率學(xué)派認(rèn)為概率是隨機事件發(fā)生頻率的極限值;
頻率學(xué)派執(zhí)行參數(shù)估計時,視參數(shù)為確定取值,視數(shù)據(jù)為隨機變量;
頻率學(xué)派主要使用最大似然估計法,讓數(shù)據(jù)在給定參數(shù)下的似然概率最大化;
頻率學(xué)派對應(yīng)機器學(xué)習(xí)中的統(tǒng)計學(xué)習(xí),以經(jīng)驗風(fēng)險最小化作為模型選擇的準(zhǔn)則。

有了這些理論之后,如何在實際問題中應(yīng)用頻率主義的統(tǒng)計學(xué)呢?這里有一個非常好的例子,來源于Nature Biotechnology第22卷第9期上的論文《什么是貝葉斯統(tǒng)計學(xué)》(What is Bayesian statistics)。

在這個例子中,Alice和Bob在進行一場賭局,先得到6分者獲勝。判斷得分的方式有一些特別:在賭局開始之前,荷官在賭桌上扔一個小球,在這個球停止的位置做個標(biāo)記。顯然,這個標(biāo)記的位置是隨機的。賭局開始后,荷官繼續(xù)扔球,如果球停到標(biāo)記的左側(cè),則Alice得分;反之停到標(biāo)記右側(cè),則Bob得分,這就是賭局的計分規(guī)則。那么問題來了:在這樣的規(guī)則下,Alice現(xiàn)在以5:3領(lǐng)先Bob,那么Bob反敗為勝的概率是多大呢?

要計算Bob獲勝的概率,必須要借助一個參數(shù),那就是Alice得分的概率,不妨將它設(shè)為p p ,那么Bob得分的概率就是1−p 1−p 。概率p p 取決于標(biāo)記在賭桌上的位置,由于位置本身是隨機的,p p 也就在[0, 1]上滿足均勻分布。按照頻率主義的觀點,在這一場賭局中,p p 有固定的取值,并可以通過已有的得分結(jié)果來估計。估計出p p 后就可以進一步計算Bob獲勝的概率。這個問題就作為今天的思考題目,你可以計算一下。

但是,這個問題并沒有到此為止。如果跳出頻率主義的限制,把p p 的概率分布引入到計算之中,又會得到什么樣的結(jié)果呢?

你可以加以思考。

標(biāo)簽: 選擇

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:機器學(xué)習(xí)博士生的基本素養(yǎng):除了硬技能,還要學(xué)會與導(dǎo)師相處

下一篇:谷歌、Facebook已成數(shù)據(jù)寡頭,去中心化數(shù)據(jù)交換打破壟斷