中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

如何用大數(shù)據(jù)+機(jī)器學(xué)習(xí)精準(zhǔn)的預(yù)測(cè)房?jī)r(jià)?

2018-11-22    來(lái)源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

一提到房?jī)r(jià),就“壓力山大”!無(wú)論是首套房還是改善性需求,買在地點(diǎn)賣在高點(diǎn)都是一個(gè)可遇不可求的事兒,所以如果有位數(shù)據(jù)大俠能幫助設(shè)計(jì)一個(gè)預(yù)測(cè)房?jī)r(jià)的神器,豈不是“人生很值得”!本期DT數(shù)據(jù)與紐約數(shù)據(jù)科學(xué)學(xué)院合作的數(shù)據(jù)線專欄中,四位數(shù)據(jù)俠通過(guò)“數(shù)據(jù)超能力”試圖利用Python通過(guò)機(jī)器學(xué)習(xí)方式來(lái)預(yù)測(cè)房?jī)r(jià),快來(lái)看看他們是如何做得吧!

 

 

如果讓你全憑直覺來(lái)判斷,上圖里的四個(gè)房子哪個(gè)最貴?

(也許)大多數(shù)人會(huì)說(shuō)是右邊的藍(lán)色房子,因?yàn)樗雌饋?lái)最大也最新。然而,當(dāng)你看完今天這篇文章,你可能會(huì)有不同的答案,并且發(fā)現(xiàn)一種更準(zhǔn)確的預(yù)測(cè)房屋價(jià)格的方法。

這個(gè)項(xiàng)目的數(shù)據(jù)集可以在kaggle頁(yè)面找到:這些數(shù)據(jù)被分為兩類,訓(xùn)練集和測(cè)試集。

數(shù)據(jù)列表一共有2600行、79列,包括了不同房屋的描述性數(shù)據(jù),比如臥室數(shù)、一層的房屋面積等。訓(xùn)練集里還包括了房屋的真實(shí)價(jià)格數(shù)據(jù)。

因變量

 

 

圖片說(shuō)明:房?jī)r(jià)的分布圖

房屋價(jià)格總體來(lái)看,是一個(gè)平均值和中位數(shù)在20萬(wàn)美元左右的向右傾斜的分布,最高的價(jià)格在55萬(wàn)到75萬(wàn)之間。

 

 

圖片說(shuō)明:房?jī)r(jià)的描述統(tǒng)計(jì)

自變量

類別變量(Categorical Variables )

 

 

圖片說(shuō)明:房屋質(zhì)量vs.房?jī)r(jià)

大多數(shù)(79種變量中有51種)是定性變量(categorical),包括房子所在社區(qū)、整體質(zhì)量、房屋類型等。最好預(yù)測(cè)的變量是與質(zhì)量相關(guān)的變量。比如,整體質(zhì)量這個(gè)變量最終證明是預(yù)測(cè)價(jià)格的最關(guān)鍵因素。房子某一個(gè)部分的質(zhì)量,比如泳池、地下室等,也都與最終價(jià)格有很強(qiáng)的相關(guān)性。

數(shù)字變量(numeric variables)

數(shù)字變量大多是關(guān)于房屋面積。它們也與價(jià)格相關(guān)。

 

 

圖片說(shuō)明:除去地下室的房屋居住面積vs.房?jī)r(jià)

 

 

圖片說(shuō)明:總面積vs.房?jī)r(jià)

缺失的數(shù)據(jù)

 

 

圖片說(shuō)明:缺失值

過(guò)程中的一大挑戰(zhàn)是那些缺失的數(shù)據(jù),對(duì)于像泳池質(zhì)量、泳池面積等數(shù)據(jù),如果數(shù)據(jù)缺失了,則說(shuō)明這棟房子沒(méi)有泳池,我們會(huì)用0來(lái)代替,如果是定性變量,則用“無(wú)”來(lái)代替。對(duì)于那些“意外缺失”的數(shù)據(jù),我們則通過(guò)其他變量進(jìn)行估算,補(bǔ)充進(jìn)去。

 

 

圖片說(shuō)明:缺失值與填補(bǔ)

特征工程

處理一大堆不清晰的特征總是充滿挑戰(zhàn)。下面我們要?jiǎng)?chuàng)造和拋棄一些變量,并引入一些啞變量等。

拋棄變量

通常人們會(huì)刪除一些相互高度關(guān)聯(lián)的特征。在我們的分析中,我發(fā)現(xiàn)車庫(kù)建造年份和房屋建造年份關(guān)聯(lián)度很強(qiáng),關(guān)聯(lián)值達(dá)到0.83。而且75.8%以上的情況下,這兩個(gè)值是相同的。因此,我們決定把有很多缺失的車庫(kù)年份數(shù)據(jù)丟掉。

創(chuàng)造新的變量

有時(shí)候需要?jiǎng)?chuàng)造新的變量從而提升整個(gè)模型的表現(xiàn),我們?cè)O(shè)計(jì)了兩個(gè)新變量:

1 賣掉時(shí)的房齡

2 賣掉時(shí)距重新裝修過(guò)去多少年

處理變量

1 我們找出11個(gè)定性變量,它們存在某種排序的可能,可以分別將它們劃分為很棒、一般和很差

2 對(duì)于其他的定性變量,我們使用pandas.get_dummies來(lái)得到獨(dú)熱編碼(One-Hot Encoding)

3 我們找到24個(gè)連續(xù)數(shù)據(jù)變量,它們的斜率大于0.75(向右傾斜)我們使用對(duì)數(shù)變換來(lái)去掉本身的偏態(tài)

 

 

圖片說(shuō)明:特征檢測(cè)

正則化(regularization)

因?yàn)槲覀冃枰幚砗芏嘧兞,所以我們引入了正則化的操作,來(lái)處理在過(guò)程中發(fā)現(xiàn)的那些多重共線性關(guān)系,以及使用多元線性回歸模型可能帶來(lái)的過(guò)度擬合問(wèn)題。

正則化最棒的地方在于它能減少模型的復(fù)雜性,因?yàn)樗茏詣?dòng)地為你完成特征挑選的任務(wù)。所有正則化模型都會(huì)懲罰多余的特征。

正則化的模型包括 Lasso, Ridge 模型和彈性網(wǎng)絡(luò)(Elastic Net)。Lasso 算法(最小絕對(duì)值收斂和選擇算法)會(huì)將系數(shù)設(shè)為0,而ridge回歸模型會(huì)最小化系數(shù),使其中的一些非常接近0。彈性網(wǎng)絡(luò)模型是Lasso和Ridge的混合。它將彼此相關(guān)的變量分到同一組,如果里面有一個(gè)變量是個(gè)很強(qiáng)的預(yù)測(cè)變量(predictor),那么整個(gè)組都會(huì)被納入這個(gè)模型。

下一步是將每個(gè)模型的超參數(shù)進(jìn)行交叉驗(yàn)證。

我們將 Lasso模型的阿爾法定為 = .0005,Ridge的阿爾法為2.8 。彈性網(wǎng)絡(luò)模型的阿爾法為 .0005 , L1_Ratio = 0.9。因?yàn)楫?dāng) L1_Ratio = 0.9 時(shí),彈性網(wǎng)絡(luò)模型十分接近 Lasso模型,后者有默認(rèn)的 L1_Ratio = 1 。

 

 

特征選擇

 

 

圖片說(shuō)明:Lasso與Ridge模型的回歸系數(shù)

Lasso模型

對(duì)房屋價(jià)格的正算子系數(shù):地上生活空間、整體房子狀況以及Stone Bridge, North Ridge 和 Crawford社區(qū)。

負(fù)算子系數(shù):MS Zoing,Edwards 社區(qū)和地上廚房。

Ridge模型

對(duì)房屋價(jià)格的正算子系數(shù):整體住宅面積、房頂材料(木瓦)、整體狀況。

負(fù)算子系數(shù):一般的分區(qū)需求、離主干道或鐵路的距離,以及游泳池狀況良好。

訓(xùn)練數(shù)據(jù)中模型預(yù)測(cè)的價(jià)格和真實(shí)價(jià)格的對(duì)比

下面兩圖展示了我們的模型的精確度。離紅線近的以及在紅線上面的是我們預(yù)測(cè)準(zhǔn)確的,那些偏離的比價(jià)多的需要我們進(jìn)一步研究。

 

 

圖片說(shuō)明:預(yù)測(cè)價(jià)格vs.真實(shí)價(jià)格

梯度提升回歸(Gradient boosting regression)

梯度提升回歸是我們表現(xiàn)最好的一個(gè)算法。我們最初使用全部特征(基準(zhǔn)模型)來(lái)訓(xùn)練梯度提升機(jī)。我使用 scikit-learn這個(gè)Python包提供的 GridSearchCV 功能來(lái)進(jìn)行參數(shù)調(diào)整的交叉驗(yàn)證。我們最好的模型參數(shù)是:學(xué)習(xí)值0.05,估計(jì)量2000,最大深度3。

我們制作了一個(gè)相對(duì)重要性表格,將梯度提升特征的重要性用可視化的方式呈現(xiàn)。特征重要性分?jǐn)?shù)代表每個(gè)特征在構(gòu)建這個(gè)加強(qiáng)版的決策樹里是否有用。地上生活空間面積、廚房質(zhì)量、地下室面積以及車庫(kù)大小是最重要的特征。

 

 

圖片說(shuō)明:相對(duì)重要性

PCA(主成分分析 )+ 梯度提升回歸

我們接下來(lái)嘗試通過(guò)減少特征的維度來(lái)提高我們基準(zhǔn)模型的表現(xiàn)。高維度的數(shù)據(jù)可能很分散,就會(huì)讓使用某種算法來(lái)訓(xùn)練有用的模型變得更難?偟膩(lái)說(shuō),最優(yōu)的、非多余的特征子集會(huì)對(duì)預(yù)測(cè)性的算法有好處,能夠提高訓(xùn)練率以及加強(qiáng)它的可解釋性和一般性。

我們使用 scikit-learn 的 Pipelines 來(lái)管理我們的機(jī)器學(xué)習(xí)模型,它允許我們通過(guò)應(yīng)用一個(gè)估計(jì)量來(lái)完成一系列數(shù)據(jù)的轉(zhuǎn)化工作。

我們?cè)O(shè)計(jì)了不同的pipeline,每一個(gè)有不同的估計(jì)量。對(duì)于梯度提升回歸,我們的pipelin包括:

1 特征縮放,使用了scikit-learn 的python包

2 降維,使用PCA(留下了150個(gè)主要的成分)

我們完成了特征工程后,得到200個(gè)特征和大約1500行訓(xùn)練數(shù)據(jù)集。在看過(guò)累積方差的百分比的表格后,我們決定留下150個(gè)核心元素。

 

 

圖片說(shuō)明:方差累積百分比

并不是所有調(diào)整都能優(yōu)化結(jié)果。在我們用PCA操作后,交叉驗(yàn)證的分?jǐn)?shù)并沒(méi)有提高,甚至惡化了(從0.91降到了0.87)。我們相信是降維時(shí),也去掉了一些關(guān)鍵信息。PCA 不僅去掉了隨機(jī)出現(xiàn)的噪音,也去掉了有價(jià)值的信息。

PCA + 多元線性回歸

對(duì)于多元線性回歸,我們的pipeline 包括:

1 特征縮放,使用了scikit-learn 的python包

2 降維,使用PCA(留下了150個(gè)主要的成分)

使用多元線性回歸的PCA 也沒(méi)有帶來(lái)好的結(jié)果。交叉驗(yàn)證的分?jǐn)?shù)并沒(méi)有提高,甚至惡化了。

模型比較

XG Boost 是表現(xiàn)最好的模型,多元線性回歸表現(xiàn)最差,其他模型的結(jié)果差不多。

 

 

圖片說(shuō)明:各個(gè)模型對(duì)比

使用單獨(dú)某一個(gè)模型都能讓我們得到不錯(cuò)的結(jié)果。但是,通常來(lái)說(shuō),真實(shí)生活中的問(wèn)題并沒(méi)有一種線性或者非線性的關(guān)系,可以讓我們用一個(gè)單獨(dú)的模型來(lái)重現(xiàn)。把保守和激進(jìn)、線性和非線性的模型結(jié)合起來(lái),才能最好地呈現(xiàn)房?jī)r(jià)預(yù)測(cè)這個(gè)問(wèn)題。

融合(stacking 和 ensembling)

我們先嘗試了一個(gè)簡(jiǎn)單的合模型(ensembling),以50-50的比例將 XGBoost(非線性)和ENet(線性)組合在一起。

接下來(lái),我們按照模型融合(stacking)的基本方法,又嘗試了多個(gè)不同模型,來(lái)看哪個(gè)效果最好。下圖記錄了這些不同模型的表現(xiàn)情況。

 

 

結(jié)論

下面的相關(guān)性熱點(diǎn)圖展示了我們不同模型的預(yù)測(cè)價(jià)格?梢钥吹,彈性網(wǎng)絡(luò),Lasso和Ridge本質(zhì)上很相似,而兩種融合方式也彼此很像。與其他都明顯不同的是 XGBoost 模型。

 

 

圖片說(shuō)明:模型成績(jī)

未來(lái)可研究方向

1 研究自變量之間的相關(guān)性

2 嘗試更多的特征工程

3 使用聚類分析來(lái)創(chuàng)造更多新的特征

4 對(duì)不同模型使用不同的特征選擇方法:在線性模型中拋棄掉特定的特征,而在樹形模型中保持大多數(shù)的特征。

(以上內(nèi)容編譯自紐約數(shù)據(jù)科學(xué)院博客Predicting House Prices with Machine Learning Algorithms,僅代表作者觀點(diǎn))

Yulia Norenko 有5年的金融從業(yè)經(jīng)驗(yàn),曾在多家知名券商擔(dān)任分析師職務(wù)。他擁有紐約大學(xué)和莫斯科大學(xué)的碩士學(xué)位。

Howard Chang畢業(yè)于石溪大學(xué)數(shù)學(xué)專業(yè)。他曾在管理數(shù)十億美元的對(duì)沖基金工作。

Lavanya Gupta畢業(yè)于安巴尼信息與通信技術(shù)研究所,目前就職于匯豐銀行,擔(dān)任軟件工程師。

Silvia Lu目前在紐約和新澤西地區(qū)空港管理部門實(shí)習(xí),擔(dān)任數(shù)據(jù)分析師職務(wù),她擁有紐約大學(xué)的心理學(xué)專業(yè)碩士學(xué)位。

標(biāo)簽: 金融 數(shù)據(jù)分析 通信 網(wǎng)絡(luò)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:為什么你不應(yīng)該成為一名數(shù)據(jù)科學(xué)通才

下一篇:云計(jì)算、大數(shù)據(jù)、人工智能的關(guān)系