中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

ML:教你聚類(lèi)并構(gòu)建學(xué)習(xí)模型處理數(shù)據(jù)(附數(shù)據(jù)集)

2018-08-10    來(lái)源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用
本文將根據(jù)41個(gè)描述性分類(lèi)特征的維度,運(yùn)用無(wú)監(jiān)督主成分分析(PCA)和層次聚類(lèi)方法對(duì)觀測(cè)進(jìn)行分組。將數(shù)據(jù)聚類(lèi)可以更好地用簡(jiǎn)單的多元線性模型描述數(shù)據(jù)或者識(shí)別更適合其他模型的異常組。此方法被編寫(xiě)在python類(lèi)中,以便將來(lái)能實(shí)現(xiàn)類(lèi)似網(wǎng)格搜索的參數(shù)優(yōu)化。

 

 

結(jié)果與討論

本項(xiàng)目中,我們將機(jī)器學(xué)習(xí)技術(shù)應(yīng)用于Ames住房數(shù)據(jù)集,用79個(gè)解釋變量來(lái)預(yù)測(cè)房屋的銷(xiāo)售價(jià)格,其中包括41個(gè)分類(lèi)變量(分類(lèi)型變量),38個(gè)連續(xù)數(shù)值變量(連續(xù)型變量)。在最初探索性數(shù)據(jù)分析(EDA)和特征選擇的過(guò)程中,為了更好地理解數(shù)據(jù),我們僅用兩個(gè)連續(xù)變量來(lái)擬合數(shù)據(jù),以便通過(guò)三維散點(diǎn)圖反映數(shù)據(jù)和模型。通過(guò)列舉38個(gè)連續(xù)數(shù)值變量的所有雙變量排列組合并分別擬合線性回歸模型,我們選出了兩個(gè)對(duì)銷(xiāo)售價(jià)格預(yù)測(cè)能力最強(qiáng)的變量。在考慮整個(gè)訓(xùn)練集時(shí),地上居住面積和整體質(zhì)量參數(shù)是最佳的預(yù)測(cè)指標(biāo),但這只解釋了房屋銷(xiāo)售價(jià)73.9%的方差。通過(guò)使用41個(gè)分類(lèi)特征來(lái)識(shí)別數(shù)據(jù)集內(nèi)的組群,我們可以將數(shù)據(jù)集分解為方差更小的子集,并找到更好地描述每個(gè)特定房屋子集的模型。

附Ames housing數(shù)據(jù)集:

https://www.kaggle.com/c/house-prices-advanced-regression-techniques

 

 

一個(gè)簡(jiǎn)單的線性回歸模型可以體現(xiàn)地上居住面積和整體質(zhì)量對(duì)住宅銷(xiāo)售價(jià)格的影響,它解釋了74%的房?jī)r(jià)變動(dòng)

由于分類(lèi)變量較多,并且對(duì)Ames房屋市場(chǎng)的專業(yè)知識(shí)有限,我們使用無(wú)監(jiān)督的聚類(lèi)方法找到變量里的模式并在此基礎(chǔ)上分組。首先通過(guò)PCA對(duì)數(shù)據(jù)集進(jìn)行降維,以避免大量分類(lèi)變量造成的“維度災(zāi)難”效應(yīng)。PCA還有其他的好處,它能把對(duì)總體方差沒(méi)有貢獻(xiàn)的變量數(shù)量降到最低,并且將維度降低到三維以便我們直觀地改進(jìn)聚類(lèi)算法的圖形表示(并且將維度降低至三維,給了我們一個(gè)圖形化的分類(lèi)效果展示,以便做出直觀地改進(jìn))。下圖展示了由PCA將分類(lèi)變量降到3維的圖形:

 

 

由41個(gè)分類(lèi)變量濃縮后的三維PCA空間數(shù)據(jù)表示

通過(guò)對(duì)此圖的初步觀察,數(shù)據(jù)大部分的差異體現(xiàn)在新的Y(垂直)維度。在X(寬度)和Z(深度)維度中,差異來(lái)源于設(shè)定的類(lèi)別,進(jìn)而導(dǎo)致數(shù)據(jù)形成垂直方向的條紋。由于群集的各向異性,我們利用有k-nearest neighbor connector參數(shù)的層次聚類(lèi)算法來(lái)定義組,這樣就不會(huì)將條帶分割成多個(gè)部分。(我們利用層次聚類(lèi)算法中的k鄰近算法,在不把豎狀條紋割開(kāi)的基礎(chǔ)上重新定義各個(gè)組。)(在Python的sklearn庫(kù)中,AgglomerativeClustering方法可以用于聚類(lèi)。本案例中,基于Ward linkage標(biāo)準(zhǔn)把類(lèi)的數(shù)量設(shè)置為6,以及由kneighbors_graph包生成連接數(shù)組,其中參數(shù)n_neighbors設(shè)置為20)。

 

 

層次聚類(lèi)分組的PCA空間表示

 

 

基于鄰近地區(qū)著色和PCA降維的觀測(cè)有助于發(fā)現(xiàn)影響降維及聚類(lèi)的因素

由PCA 、聚類(lèi)方法生成的群集非常好地區(qū)別了分組中的垂直“條紋”。為了找到無(wú)監(jiān)督聚類(lèi)和其所對(duì)應(yīng)的房屋特征之間的相似點(diǎn),這些群集也基于每個(gè)分類(lèi)變量著色。其中一些彩色的散點(diǎn)圖類(lèi)似于無(wú)監(jiān)督聚類(lèi),表明這些特定的房子特征在確定每個(gè)數(shù)據(jù)點(diǎn)的最終PCA向量時(shí)起較大的作用。特別注意的是,基于鄰近區(qū)域(neighborhood)著色突出了與無(wú)監(jiān)督方法相似的垂直分組,這表明鄰近區(qū)域是影響分解子集的一個(gè)重要因素。為了此類(lèi)應(yīng)用,我們需要設(shè)計(jì)更精確的方法來(lái)確定每個(gè)因素對(duì)最終PCA維度的整體“貢獻(xiàn)”。

為了確定每個(gè)組中哪兩大因素是銷(xiāo)售價(jià)格最好的預(yù)測(cè)因素,我們用這6個(gè)集群把連續(xù)數(shù)值數(shù)據(jù)分為子集,并假設(shè)一個(gè)簡(jiǎn)單的二元線性回歸模型

 

雖然有些節(jié)點(diǎn)比其他節(jié)點(diǎn)更適合線性回歸,但相比于將數(shù)據(jù)作為整體來(lái)處理,用模型擬合這些群集在精度上沒(méi)有累積差異。然而,這只是概念驗(yàn)證的初始迭代,還沒(méi)有優(yōu)化關(guān)鍵參數(shù),如n_nodes、(節(jié)點(diǎn)數(shù)量),PCA dimensions(PCA維度)和KNN connectivity parameters(KNN連通度)。將這些方法編碼到一個(gè)python類(lèi)中,它可以協(xié)助使用類(lèi)似于網(wǎng)格搜索的優(yōu)化過(guò)程來(lái)確定最佳的集群參數(shù),從而最大化簡(jiǎn)單線性回歸模型的準(zhǔn)確性。請(qǐng)參考下列GitHub鏈接中的"MC_regressor_Code.ipynb":

https://github.com/dgoldman916/housing-ml。

未來(lái)工作

此時(shí),“概念驗(yàn)證”的關(guān)鍵缺失是對(duì)新數(shù)據(jù)進(jìn)行訓(xùn)練和分類(lèi)的能力。在引入測(cè)試集時(shí),要先基于訓(xùn)練得到的參數(shù)將新數(shù)據(jù)被分為有標(biāo)記的組。這就需要一個(gè)有監(jiān)督的聚類(lèi)方法,比如決策樹(shù)或支持向量機(jī)(SVM)。在添加此類(lèi)函數(shù)之后,可以將其應(yīng)用到組的其他工作流程中。我們可以通過(guò)預(yù)期的最終迭代在擬合穿過(guò)節(jié)點(diǎn)的更復(fù)雜的模型,并將這些模型的結(jié)果集中在一起。

標(biāo)簽: 數(shù)據(jù)分析 搜索

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:想當(dāng)數(shù)據(jù)科學(xué)家的你這13個(gè)錯(cuò)誤可別犯

下一篇:從數(shù)據(jù)治理看醫(yī)療大數(shù)據(jù)的發(fā)展