中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

數(shù)據(jù)科學能回答什么樣的問題?

2018-07-20    來源:編程學習網(wǎng)

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用


機器學習是數(shù)據(jù)科學的發(fā)動機。每種機器學習方法(也稱為算法)獲取數(shù)據(jù),反復(fù)咀嚼,輸出結(jié)果。機器學習算法負責數(shù)據(jù)科學里最難以解釋又最有趣的部分。數(shù)學的魔法在此發(fā)生。

機器學習算法可以根據(jù)它們所回答的問題分成幾組。這種分組能夠在你提煉問題時幫助思考。


A類還是B類?

這組算法被稱為二類分類( two-class classification )。適用于任何有兩個可能選項的問題:是或否、開或關(guān)、吸煙或不吸煙、買或不買。許多數(shù)據(jù)科學問題看起來是這種形式,或者可以被組織成這種形式。這是最簡單也最常提到的數(shù)據(jù)科學問題。幾個典型的例子:

1.這名顧客會不會繼續(xù)訂閱?

2.這圖片上是一只貓還是一只狗?

3.這名顧客會不會點擊頂部鏈接?

4.在接下來的一千英里輪胎會不會報廢?

5.5美元打折券和25%打折券哪個能吸引更多回頭客?


A類、B類、C類還是D類?

這組算法被稱作多類分類( multi-class classification )。如同名字所示,這組算法回答有多個可能答案的問題:哪種口味、哪個人、哪個部分、哪個公司、哪位候選人。大多數(shù)多類分類算法只是二類分類算法的延伸。一些典型例子如下:

1.這圖片上是哪種動物?

2.這種雷達信號是哪種飛行器引起的?

3.這篇新聞是什么主題?

4.這條推特是什么情緒?

5.這段錄音里的說話人是誰?


是否異常?

這組算法進行異常檢測( anomaly detection )。它們識別出異常的數(shù)據(jù)點。如果仔細留意,你會發(fā)現(xiàn)異常檢測看起來像二元分類問題。問題可以用“是”或“否”來回答。不同之處時,二元分類假定你已經(jīng)有一些“是”/“不是”的案例。異常檢測則不是這樣。當你所尋找的東西如此稀少(如設(shè)備失靈),以至于沒能收集太多有關(guān)案例時,異常檢測尤其有用。 當“不正!卑喾N情況時(如信用卡詐騙),異常檢測也很有幫助。一些常見的異常檢測問題:

1.這個壓力讀數(shù)是否異常?

2.這則網(wǎng)上信息有代表性嗎?

3.這個購物組合是否與此消費者之前所做的非常不同?

4.這些電壓在這個季節(jié)的這個時間是否正常?


多少?

當你想求一個數(shù)字,而不是一個分級或類別,此時要用到的是回歸。

1.下周二會是什么溫度?

2.我第四季度在葡萄牙的銷售額會是多少?

3.在接下來半個小時,我的風力發(fā)電廠會有多少千瓦的需求?

4.下周我會獲得多少新粉絲?

5.這種型號的軸承,每一千個中有多少能工作超過一萬小時?

通常來說,回歸算法給出一個實值作為答案。答案可能會有小數(shù)或負數(shù)。對于一些問題,尤其是以“多少個”開頭的問題,負數(shù)需要被解讀為0,分數(shù)要取近似整數(shù)。


多類分類作為回歸問題

有時看似多元分類的問題事實上比較適合做回歸。比如,“哪個新聞故事對讀者來說更有趣?”看似在詢問類別——新聞故事清單里的一個條目。然而,問題可以重新組織成“對于讀者來說,清單上的每個故事在多大程度上有趣?”給每篇文章一個數(shù)字作為分數(shù)。之后就是一個簡單的識別最高分文章問題。這種類型的問題通常以排名或比較形式出現(xiàn)。

1.“我船隊的哪個貨艙最需要維修?”可以被轉(zhuǎn)述為“我船隊的貨艙各在多大程度上需要維修?”

2.“我的顧客中,哪5%明年會轉(zhuǎn)向我的競爭對手?可以被轉(zhuǎn)述為“我的每個客戶明年各有多大可能轉(zhuǎn)向我的競爭對手?”


二類分類作為回歸問題

并不奇怪,二元分類也可以被轉(zhuǎn)述為回歸問題。(事實上,一些算法私下把所有二元分類問題轉(zhuǎn)化為回歸。)當一個案例可能屬于A或B,或有一定幾率屬于任意一方時,這種方法尤其有幫助。當答案可能為部分的“是”或“否”,可能是“開”也可能是“關(guān)”,回歸能夠體現(xiàn)這種情況。這種問題通常由“多大可能”或“多大比例”開頭:

1.這個用戶有多大可能點擊我的廣告?

2.這個老虎機上多大比例的拉動導致了吐錢?

3.這個員工有多大可能是一個內(nèi)部安全隱患?

4.今天的航班有多大比例準時起飛?

你可能已經(jīng)猜到,二元分類、多類分類、異常檢測和回歸全部是緊密相關(guān)的。它們屬于同一個延伸的家庭,監(jiān)督學習。它們有許多相同之處,問題通常能被修改為不止一種形式。它們的共性是,它們都是通過一組加了標簽的樣本建立(被稱作“訓練”的過程),之后它們能對于無標簽的樣本賦予值或類別(被稱作“打分”的過程)。

無監(jiān)督學習和增強學習的算法家族則有完全不同的數(shù)據(jù)科學問題。


數(shù)據(jù)是如何構(gòu)成?

有關(guān)數(shù)據(jù)如何構(gòu)成的問題屬于無監(jiān)督學習。有許多技術(shù)試圖提煉數(shù)據(jù)的結(jié)構(gòu)。其中一組算法進行聚類,也被稱作分塊、分組、聚群、分隔等。它們試圖把一個數(shù)據(jù)集分為一些直覺式的區(qū)塊。聚類與監(jiān)督學習的不同之處,是沒有數(shù)字或名稱可以告訴你數(shù)據(jù)點屬于哪個類別,這些分組代表什么,或應(yīng)該有多少個組。如果監(jiān)督學習是在夜空群星中挑選出星球,那么聚類就是在構(gòu)造星座。聚類試圖把數(shù)據(jù)分成自然的“叢”,以便作為分析師的人類能更輕易地向他人解釋。聚類一貫依賴于一個緊密度或相似性的定義,如智商差異、相同基因?qū)蝤B瞰直線距離。聚類問題都試著把數(shù)據(jù)分解成近乎一致的群組。

1.哪些顧客對農(nóng)產(chǎn)品有相似的喜好?

2.哪些觀眾喜歡同類的電影?

3.這個變電所在一周的哪些日子有相似的用電需求?

4.用什么辦法把這些文件自然地分成五類?

另一組無監(jiān)督學習算法叫維度歸約(dimensionality reduction)技術(shù)。維度歸約是另一種簡化數(shù)據(jù)的方式,讓數(shù)據(jù)能更容易傳播,更快速計算,更容易存儲。

在根本上,維度歸約都是在創(chuàng)造一種描述數(shù)據(jù)點的簡易方法。一個簡單的例子是GPA學分績點。一個大學生的學術(shù)能力,由數(shù)十個課程的數(shù)百場考試和數(shù)千個作業(yè)衡量。每個作業(yè)在某種程度上反映學生在多大程度上理解課程資料,但一個完整的作業(yè)清單任何招聘者來說都消化不了。幸運的是,你可以創(chuàng)造一個簡易方法把所有分數(shù)平均在一起。靠這個大型的簡化可以蒙混過關(guān),因為在一項作業(yè)/課程表現(xiàn)突出的學生通常在其他作業(yè)/課程依然如此。通過使用學分績點而不是整個清單,豐富性無疑會受到損失。 比如,你不會知道是否這學生更擅長數(shù)學/英文,以及是否她在編程家庭作業(yè)中比隨堂測驗表現(xiàn)更好。但卻收獲了簡單,使得談?wù)摵捅容^學生能力變得容易許多。

維度歸約相關(guān)問題大多有關(guān)傾向于共同變化的因素。

1.直升機的哪些傳感器傾向于共同(或不共同)變化?

2.成功的CEO有哪些共同的領(lǐng)導實踐?

3.哪些是整個美國汽油價格變化的最常見模式?

4.這個文件集中哪些詞組傾向于一同出現(xiàn)?(它們是有關(guān)什么主題?)

如果目標是總結(jié)、簡化、壓縮或提煉一些數(shù)據(jù),要選用的工具就是維度歸約和聚類。


我現(xiàn)在該做什么?

第三個機器學習算法家族重視采取行動。它們被稱為增強學習(reinforcement learning)算法;貧w算法能預(yù)測出明天的最高氣溫是37°C,但它無法決定對此做些什么。增強學習算法邁向下一步并選擇一種行為,如,趁天氣還涼爽提前為辦公樓高層降溫。

增強學習的靈感最早來源于老鼠和人類大腦如何對獎懲做出反應(yīng)。它們采取行動,努力獲得能帶來最高獎勵的行為。你提供給它們一系列可能的選項。它們需要對于某個行為獲得反饋,判斷此行為是好或中性或大錯特錯。

通常增強學習算法很適合需要在無人類監(jiān)督下做出許多小決策的自動化系統(tǒng)。電梯、供熱、降溫和燈光系統(tǒng)是不錯的選擇。增強學習最初是被開發(fā)用于控制機器人,以便所有東西能夠自動,不管是偵察無人機還是真空吸塵器。增強學習回答的問題一貫關(guān)于該采取什么行為,盡管這行為通常是由機器執(zhí)行。

1.我該把這則廣告放置在網(wǎng)頁什么位置,以使瀏覽者最大可能打開它?

2.我是該把溫度調(diào)高、調(diào)低還是維持現(xiàn)狀?

3.我是該在打掃一遍起居室還是繼續(xù)充電?

4.我現(xiàn)在該買多少股這個股票?

5.面對黃燈,我是該繼續(xù)以這個速度行駛還是剎車,或者加速?

增強學習通常需要比其他算法做更多努力,因為它與系統(tǒng)的其他部分緊密相連。這里的優(yōu)勢是多數(shù)增強學習算法可以在沒有數(shù)據(jù)的情況下開始工作。它們在運行中收集數(shù)據(jù),從嘗試和錯誤中學習。


原文作者:Brandon Rohrer

翻譯:數(shù)據(jù)工匠

原文鏈接:http://www.kdnuggets.com/2015/09/questions-data-science-can-answer.html

標簽: 安全 排名

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:IO多路復(fù)用深入淺出

下一篇:AlphaGo的新技能學習過程