站長資訊平臺

數(shù)據(jù)科學能回答什么樣的問題？

2018-07-20 來源：編程學習網(wǎng)

機器學習是數(shù)據(jù)科學的發(fā)動機。每種機器學習方法（也稱為算法）獲取數(shù)據(jù)，反復(fù)咀嚼，輸出結(jié)果。機器學習算法負責數(shù)據(jù)科學里最難以解釋又最有趣的部分。數(shù)學的魔法在此發(fā)生。

機器學習算法可以根據(jù)它們所回答的問題分成幾組。這種分組能夠在你提煉問題時幫助思考。

A類還是B類？

這組算法被稱為二類分類( two-class classification )。適用于任何有兩個可能選項的問題：是或否、開或關(guān)、吸煙或不吸煙、買或不買。許多數(shù)據(jù)科學問題看起來是這種形式，或者可以被組織成這種形式。這是最簡單也最常提到的數(shù)據(jù)科學問題。幾個典型的例子：

1.這名顧客會不會繼續(xù)訂閱？

2.這圖片上是一只貓還是一只狗？

3.這名顧客會不會點擊頂部鏈接？

4.在接下來的一千英里輪胎會不會報廢？

5.5美元打折券和25%打折券哪個能吸引更多回頭客？

A類、B類、C類還是D類？

這組算法被稱作多類分類( multi-class classification )。如同名字所示，這組算法回答有多個可能答案的問題：哪種口味、哪個人、哪個部分、哪個公司、哪位候選人。大多數(shù)多類分類算法只是二類分類算法的延伸。一些典型例子如下：

1.這圖片上是哪種動物？

2.這種雷達信號是哪種飛行器引起的？

3.這篇新聞是什么主題？

4.這條推特是什么情緒？

5.這段錄音里的說話人是誰？

是否異常？

這組算法進行異常檢測（ anomaly detection ）。它們識別出異常的數(shù)據(jù)點。如果仔細留意，你會發(fā)現(xiàn)異常檢測看起來像二元分類問題。問題可以用“是”或“否”來回答。不同之處時，二元分類假定你已經(jīng)有一些“是”/“不是”的案例。異常檢測則不是這樣。當你所尋找的東西如此稀少（如設(shè)備失靈），以至于沒能收集太多有關(guān)案例時，異常檢測尤其有用。當“不正�！卑喾N情況時（如信用卡詐騙），異常檢測也很有幫助。一些常見的異常檢測問題：

1.這個壓力讀數(shù)是否異常？

2.這則網(wǎng)上信息有代表性嗎？

3.這個購物組合是否與此消費者之前所做的非常不同？

4.這些電壓在這個季節(jié)的這個時間是否正常？

多少？

當你想求一個數(shù)字，而不是一個分級或類別，此時要用到的是回歸。

1.下周二會是什么溫度？

2.我第四季度在葡萄牙的銷售額會是多少？

3.在接下來半個小時，我的風力發(fā)電廠會有多少千瓦的需求？

4.下周我會獲得多少新粉絲？

5.這種型號的軸承，每一千個中有多少能工作超過一萬小時？

通常來說，回歸算法給出一個實值作為答案。答案可能會有小數(shù)或負數(shù)。對于一些問題，尤其是以“多少個”開頭的問題，負數(shù)需要被解讀為0，分數(shù)要取近似整數(shù)。

多類分類作為回歸問題

有時看似多元分類的問題事實上比較適合做回歸。比如，“哪個新聞故事對讀者來說更有趣？”看似在詢問類別——新聞故事清單里的一個條目。然而，問題可以重新組織成“對于讀者來說，清單上的每個故事在多大程度上有趣？”給每篇文章一個數(shù)字作為分數(shù)。之后就是一個簡單的識別最高分文章問題。這種類型的問題通常以排名或比較形式出現(xiàn)。

1.“我船隊的哪個貨艙最需要維修？”可以被轉(zhuǎn)述為“我船隊的貨艙各在多大程度上需要維修？”

2.“我的顧客中，哪5%明年會轉(zhuǎn)向我的競爭對手？可以被轉(zhuǎn)述為“我的每個客戶明年各有多大可能轉(zhuǎn)向我的競爭對手？”

二類分類作為回歸問題

并不奇怪，二元分類也可以被轉(zhuǎn)述為回歸問題。（事實上，一些算法私下把所有二元分類問題轉(zhuǎn)化為回歸。）當一個案例可能屬于A或B，或有一定幾率屬于任意一方時，這種方法尤其有幫助。當答案可能為部分的“是”或“否”，可能是“開”也可能是“關(guān)”，回歸能夠體現(xiàn)這種情況。這種問題通常由“多大可能”或“多大比例”開頭：

1.這個用戶有多大可能點擊我的廣告？

2.這個老虎機上多大比例的拉動導致了吐錢？

3.這個員工有多大可能是一個內(nèi)部安全隱患？

4.今天的航班有多大比例準時起飛？

你可能已經(jīng)猜到，二元分類、多類分類、異常檢測和回歸全部是緊密相關(guān)的。它們屬于同一個延伸的家庭，監(jiān)督學習。它們有許多相同之處，問題通常能被修改為不止一種形式。它們的共性是，它們都是通過一組加了標簽的樣本建立（被稱作“訓練”的過程），之后它們能對于無標簽的樣本賦予值或類別（被稱作“打分”的過程）。

無監(jiān)督學習和增強學習的算法家族則有完全不同的數(shù)據(jù)科學問題。

數(shù)據(jù)是如何構(gòu)成？

有關(guān)數(shù)據(jù)如何構(gòu)成的問題屬于無監(jiān)督學習。有許多技術(shù)試圖提煉數(shù)據(jù)的結(jié)構(gòu)。其中一組算法進行聚類，也被稱作分塊、分組、聚群、分隔等。它們試圖把一個數(shù)據(jù)集分為一些直覺式的區(qū)塊。聚類與監(jiān)督學習的不同之處，是沒有數(shù)字或名稱可以告訴你數(shù)據(jù)點屬于哪個類別，這些分組代表什么，或應(yīng)該有多少個組。如果監(jiān)督學習是在夜空群星中挑選出星球，那么聚類就是在構(gòu)造星座。聚類試圖把數(shù)據(jù)分成自然的“叢”，以便作為分析師的人類能更輕易地向他人解釋。聚類一貫依賴于一個緊密度或相似性的定義，如智商差異、相同基因?qū)蝤B瞰直線距離。聚類問題都試著把數(shù)據(jù)分解成近乎一致的群組。

1.哪些顧客對農(nóng)產(chǎn)品有相似的喜好？

2.哪些觀眾喜歡同類的電影？

3.這個變電所在一周的哪些日子有相似的用電需求？

4.用什么辦法把這些文件自然地分成五類？

另一組無監(jiān)督學習算法叫維度歸約(dimensionality reduction)技術(shù)。維度歸約是另一種簡化數(shù)據(jù)的方式，讓數(shù)據(jù)能更容易傳播，更快速計算，更容易存儲。

在根本上，維度歸約都是在創(chuàng)造一種描述數(shù)據(jù)點的簡易方法。一個簡單的例子是GPA學分績點。一個大學生的學術(shù)能力，由數(shù)十個課程的數(shù)百場考試和數(shù)千個作業(yè)衡量。每個作業(yè)在某種程度上反映學生在多大程度上理解課程資料，但一個完整的作業(yè)清單任何招聘者來說都消化不了。幸運的是，你可以創(chuàng)造一個簡易方法把所有分數(shù)平均在一起。靠這個大型的簡化可以蒙混過關(guān)，因為在一項作業(yè)/課程表現(xiàn)突出的學生通常在其他作業(yè)/課程依然如此。通過使用學分績點而不是整個清單，豐富性無疑會受到損失。比如，你不會知道是否這學生更擅長數(shù)學／英文，以及是否她在編程家庭作業(yè)中比隨堂測驗表現(xiàn)更好。但卻收獲了簡單，使得談?wù)摵捅容^學生能力變得容易許多。

維度歸約相關(guān)問題大多有關(guān)傾向于共同變化的因素。

1.直升機的哪些傳感器傾向于共同（或不共同）變化？

2.成功的CEO有哪些共同的領(lǐng)導實踐？

3.哪些是整個美國汽油價格變化的最常見模式？

4.這個文件集中哪些詞組傾向于一同出現(xiàn)？（它們是有關(guān)什么主題？）

如果目標是總結(jié)、簡化、壓縮或提煉一些數(shù)據(jù)，要選用的工具就是維度歸約和聚類。

我現(xiàn)在該做什么？

第三個機器學習算法家族重視采取行動。它們被稱為增強學習(reinforcement learning)算法�；貧w算法能預(yù)測出明天的最高氣溫是37°C，但它無法決定對此做些什么。增強學習算法邁向下一步并選擇一種行為，如，趁天氣還涼爽提前為辦公樓高層降溫。

增強學習的靈感最早來源于老鼠和人類大腦如何對獎懲做出反應(yīng)。它們采取行動，努力獲得能帶來最高獎勵的行為。你提供給它們一系列可能的選項。它們需要對于某個行為獲得反饋，判斷此行為是好或中性或大錯特錯。

通常增強學習算法很適合需要在無人類監(jiān)督下做出許多小決策的自動化系統(tǒng)。電梯、供熱、降溫和燈光系統(tǒng)是不錯的選擇。增強學習最初是被開發(fā)用于控制機器人，以便所有東西能夠自動，不管是偵察無人機還是真空吸塵器。增強學習回答的問題一貫關(guān)于該采取什么行為，盡管這行為通常是由機器執(zhí)行。

1.我該把這則廣告放置在網(wǎng)頁什么位置，以使瀏覽者最大可能打開它？

2.我是該把溫度調(diào)高、調(diào)低還是維持現(xiàn)狀？

3.我是該在打掃一遍起居室還是繼續(xù)充電？

4.我現(xiàn)在該買多少股這個股票？

5.面對黃燈，我是該繼續(xù)以這個速度行駛還是剎車，或者加速？

增強學習通常需要比其他算法做更多努力，因為它與系統(tǒng)的其他部分緊密相連。這里的優(yōu)勢是多數(shù)增強學習算法可以在沒有數(shù)據(jù)的情況下開始工作。它們在運行中收集數(shù)據(jù)，從嘗試和錯誤中學習。

原文作者：Brandon Rohrer

翻譯：數(shù)據(jù)工匠

原文鏈接：http://www.kdnuggets.com/2015/09/questions-data-science-can-answer.html

標簽：安全排名

版權(quán)申明：本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點！
本站所提供的圖片等素材，版權(quán)歸原作者所有，如需使用，請與原作者聯(lián)系。

上一篇:IO多路復(fù)用深入淺出

下一篇:AlphaGo的新技能學習過程

相關(guān)文章

最新資訊

熱門推薦

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天