中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

如果數(shù)據(jù)分布是非正態(tài)的怎么辦?用切比雪夫不等式呀!

2018-12-21    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

下圖是萬圣節(jié)的一周,在搗蛋和給糖之間,數(shù)據(jù)極客們在社交媒體上為這個可愛的網(wǎng)紅詞匯而竊竊私語。

 

正態(tài)分布/超自然分布你覺得這是個玩笑?讓我告訴你,這不是笑料。這是嚇人的,真正的萬圣節(jié)精神!

如果我們無法假設(shè)我們的大部分?jǐn)?shù)據(jù)(商業(yè)、社會、經(jīng)濟或科學(xué)根源) 至少近似“正態(tài)”(即它們是由一個高斯過程或多個這樣的過程的總和產(chǎn)生的),那么我們就完蛋了!

簡單來說吧,以下非常重要的概念將無效~

♦ 六西格瑪?shù)母拍?/p>

♦ 著名的68-95-99.7規(guī)則

♦ 統(tǒng)計分析中p=0.05(來自2西格瑪區(qū)間)的“神圣”概念

夠嚇人了么?那我們再多說兩句…

無所不在的正態(tài)分布

正態(tài)分布(高斯分布)是最廣為人知的概率分布。在數(shù)據(jù)科學(xué)的圈里,數(shù)據(jù)科學(xué)家非常喜歡這個分布。

一方面是因為,符合這個分布的現(xiàn)象在自然界隨處可見。在概率統(tǒng)計方面,中心極限定理撐起了一片天,而中心極限定理的最重要的一個假設(shè)是數(shù)據(jù)的分布符合中心極限定理。

最重要的一點是:簡潔。

因為無論是正態(tài)分布的性質(zhì)還是表達式都非常的簡潔:

♦ 它的均值(mean)、中值(median)和眾數(shù)(mode)都相同

♦ 只需要用兩個參數(shù)就可以確定整個分布

 

 

所以問題在哪呢?

這看起來都挺棒的啊,有什么問題嗎?

問題是通常是,你可能會找到特定的數(shù)據(jù)集分布,這些分布可能不滿足正態(tài)性,即正態(tài)分布的性質(zhì)。但由于過度依賴于常態(tài)假設(shè),大多數(shù)業(yè)務(wù)分析框架都是為處理正態(tài)分布數(shù)據(jù)集而量身定做的。

假設(shè)你被要求檢測來自某個流程(工程或業(yè)務(wù))的一批新數(shù)據(jù)是否有意義。所謂“有意義”是指新的數(shù)據(jù)是否屬于它的“預(yù)期范圍”,或者在它的“預(yù)期范圍”之內(nèi)。

“期望”是什么?如何確定范圍?

我們自動如潛意識驅(qū)使般,測量樣本數(shù)據(jù)集的均值和標(biāo)準(zhǔn)差,并繼續(xù)檢查新數(shù)據(jù)是否在一定的標(biāo)準(zhǔn)偏差范圍內(nèi)。

如果我們必須在95%的置信區(qū)間下工作,那么我們很高興看到數(shù)據(jù)在2個標(biāo)準(zhǔn)差內(nèi)。如果我們需要更嚴(yán)格的界限,我們檢查3或4個標(biāo)準(zhǔn)差。我們計算Cpk,或者我們遵循六西格瑪線的ppm(每百萬零件數(shù))的質(zhì)量水平.

 

所有這些計算都是基于一個隱含的假設(shè),即人口數(shù)據(jù)(而不是樣本)服從高斯分布,即生成所有數(shù)據(jù)的基本過程(過去和現(xiàn)在)受下面左側(cè)圖的支配。但是,如果數(shù)據(jù)在遵循右側(cè)圖形會發(fā)生什么呢?

 

左,正態(tài):右,非正態(tài)或者數(shù)據(jù)分布符合下邊兩個圖形。

 

 

 

當(dāng)數(shù)據(jù)非正態(tài)時,是否有更普遍的界限呢?

最終,即使數(shù)據(jù)是非正態(tài)的,我們?nèi)匀恍枰环N數(shù)學(xué)上完整的方法來限定我們的置信區(qū)間。這意味著,我們的計算可能會有一點變化,但我們還是應(yīng)該能說出這樣的話:

“與平均值一定距離處觀察一個新的數(shù)據(jù)點的概率就是這樣和這樣的…”

顯然,我們需要尋求一個比珍貴的68-95-99.7的高斯界限更普遍的界限(對應(yīng)于與平均值的1/2/3標(biāo)準(zhǔn)差距離)。

幸運的是,還真有一個這樣的公式,叫做“切比雪夫不等式”。

什么是切比雪夫界限,它是如何有用的?

切比雪夫不等式(也稱為Bienaymé-Chebyshev不等式)可以確保,對于一類廣泛的概率分布,不超過某特定分段的值會比均值的特定距離大。

大學(xué)生必修課《概率論與數(shù)理統(tǒng)計》里是這么說的:

切比雪夫不等式可以使人們在隨機變量X的分布未知的情況下,對事件|x-u|<ε概率作出估計。

表達式是這樣的:

 

其中,u為數(shù)學(xué)期望,σ為標(biāo)準(zhǔn)差,ε為任意正數(shù)

它適用于幾乎無限種類型的概率分布,并在比正態(tài)更寬松的假設(shè)下工作。

如何應(yīng)用

正如你現(xiàn)在可以猜到的,數(shù)據(jù)分析的基本機制不需要改變。你仍將收集數(shù)據(jù)樣本,并且越大越好,計算?以前也會算的均值和標(biāo)準(zhǔn)差這兩個量,然后應(yīng)用新的界限,而不是68-95-99.7規(guī)則。

 

提取樣本數(shù)據(jù)/計算:均值,標(biāo)準(zhǔn)差/應(yīng)用切比雪夫界限該表如下所示(這里k表示許多偏離平均值的標(biāo)準(zhǔn)差):

 

 

 

K均值標(biāo)準(zhǔn)差內(nèi)的最小百分比/超出k均值標(biāo)準(zhǔn)差的百分比

痛點在哪呢?為什么人們不使用這種假設(shè)更弱的約束呢?

通過看表格或數(shù)學(xué)定義痛點很明顯。切比雪夫規(guī)則在數(shù)據(jù)界的問題上比高斯規(guī)則弱得多。

首先,與正態(tài)分布的指數(shù)下降模式相比,它遵循1/k² 的圖形。再例如,要以95%的置信度設(shè)定界限,需要包含最多4.5標(biāo)準(zhǔn)偏差的數(shù)據(jù),而對于正態(tài)分布只需要2個標(biāo)準(zhǔn)差。

總體來說,在數(shù)據(jù)不是正態(tài)分布的時候還是挺有效的。

那么,我們還有別的選擇么?

當(dāng)然,還有切諾夫界以及Hoeffding不等式,它給出了獨立隨機變量和的指數(shù)銳尾分布。

當(dāng)數(shù)據(jù)看起來非正態(tài)分布時也可以用來代替高斯分布,但只適用于有高置信度,且數(shù)據(jù)相互獨立的情況。

不幸的是,在許多社會和商業(yè)案例中,數(shù)據(jù)有非常強的相關(guān)性。

敲黑板,總結(jié)一下

在本文中,我們學(xué)習(xí)了一種特殊類型的統(tǒng)計界限,它可以應(yīng)用于最廣泛的數(shù)據(jù)分布,而不依賴于正態(tài)假設(shè)。當(dāng)我們對數(shù)據(jù)的真正來源知之甚少,并且不能假定它遵循高斯分布時,這是有用的。因此,它是分析隨意類型數(shù)據(jù)分布的重要工具。

相關(guān)報道:https://towardsdatascience.com/what-if-your-data-is-not-normal-d7293f7b8f0

標(biāo)簽: 媒體 數(shù)據(jù)分析

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:GitHub 年度報告盤點:開發(fā)者增至 3100 萬,開源項目達 9600 萬

下一篇:日本大數(shù)據(jù)應(yīng)用環(huán)境和發(fā)展?fàn)顩r