中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

從0到1:關(guān)于機(jī)器學(xué)習(xí),知道這些就夠了

2018-07-04    來源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬Linux鏡像隨意使用
到底什么是機(jī)器學(xué)習(xí)?機(jī)器學(xué)習(xí)在商業(yè)領(lǐng)域如何應(yīng)用?和大數(shù)據(jù)、統(tǒng)計(jì)學(xué)又有什么關(guān)系?美國著名大數(shù)據(jù)教育機(jī)構(gòu)、全美最佳大數(shù)據(jù)訓(xùn)練營“紐約數(shù)據(jù)科學(xué)學(xué)院”首席數(shù)據(jù)科學(xué)家張尚軒(Vivian Zhang),通過豐富的案例,深入淺出地為我們介紹了機(jī)器學(xué)習(xí)的基礎(chǔ)背景、算法和應(yīng)用。

 

 

(視頻說明:從0到1,關(guān)于機(jī)器學(xué)習(xí),知道這些就夠了!)

▍機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)是何關(guān)系?

今天我的分享主題是“從0到1:關(guān)于機(jī)器學(xué)習(xí),知道這些就夠了”。因此我主要會(huì)講一些相關(guān)的背景知識(shí)和案例。

關(guān)于機(jī)器學(xué)習(xí),很多人常常會(huì)問到一個(gè)問題:機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)是什么關(guān)系。很多朋友在大學(xué)、中學(xué)的專業(yè)可能是統(tǒng)計(jì)學(xué),而也有一些計(jì)算機(jī)系的朋友也會(huì)學(xué)到關(guān)于機(jī)器學(xué)習(xí)的知識(shí)。機(jī)器學(xué)習(xí)和計(jì)算機(jī)學(xué)科、統(tǒng)計(jì)學(xué)之間的關(guān)系,我會(huì)通過一些案例來說明。

很多人都用過iPhone手機(jī)的Siri助手功能,這就是一個(gè)典型的機(jī)器學(xué)習(xí)的例子。當(dāng)你打開Siri的時(shí)候,你可以與它語音溝通:比如你可以讓它幫你跟朋友約個(gè)會(huì)議、自動(dòng)查詢明天拉斯維加斯的天氣怎么樣等等。

 

 

Siri的原理并不復(fù)雜,它首先是試著明白你的語音,從中獲取到你的具體指令,接著通過你自己手機(jī)本身存儲(chǔ)的信息和互聯(lián)網(wǎng)的信息,來找到你想知道的答案,最后它會(huì)將它整理出來的結(jié)果和答案直接反饋給你。

 

 

上圖可以看出,在整個(gè)流程(聽懂你的語音-識(shí)別你的指令-找到你想要的結(jié)果-組織結(jié)果回答你的問題)中,Siri反復(fù)用到了各種各樣的機(jī)器學(xué)習(xí)的算法。

類似的例子還有很多,在當(dāng)今社會(huì),機(jī)器學(xué)習(xí)已經(jīng)存在于我們生活的方方面面。比如語音識(shí)別、無人駕駛汽車、自動(dòng)推薦系統(tǒng)、信用卡的防欺詐系統(tǒng)等等,這些領(lǐng)域都有機(jī)器學(xué)習(xí)的影子。機(jī)器學(xué)習(xí)知名學(xué)者吳恩達(dá)(Andrew Ng)曾經(jīng)說過:機(jī)器學(xué)習(xí)已經(jīng)無處不在,你可能在一天中使用過很多次,卻不知道已經(jīng)使用過它。

在學(xué)界來說,對(duì)于機(jī)器學(xué)習(xí)的一個(gè)比較流行的定義是:所謂機(jī)器學(xué)習(xí)就是用算法來教機(jī)器自動(dòng)地從數(shù)據(jù)中學(xué)習(xí)知識(shí)。

另一個(gè)更為被學(xué)界接受的定義來自T.M.Mitchell:所謂機(jī)器學(xué)習(xí)就是一個(gè)計(jì)算機(jī)程序,它可以通過你的經(jīng)驗(yàn)來提高你對(duì)處理某些任務(wù)的表現(xiàn)。

它包括三個(gè)方面的變量,一個(gè)是經(jīng)驗(yàn)值(E)、任務(wù)值(T)和你的表現(xiàn)值(P)。當(dāng)你的算法能夠在特殊的任務(wù)值T中,通過經(jīng)驗(yàn)的衡量,來提升你的表現(xiàn)。這樣的算法就被認(rèn)為是好的機(jī)器學(xué)習(xí)的算法。

這樣的定義看起來繞口,卻可以幫我們理清機(jī)器學(xué)習(xí)的目標(biāo)、手段等等。

一般來說,機(jī)器學(xué)習(xí)被認(rèn)為是計(jì)算機(jī)專業(yè)的一個(gè)部分,是人工智能的一個(gè)小分支。它和計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)、數(shù)學(xué)緊密關(guān)聯(lián),當(dāng)然,很多人也會(huì)將機(jī)器學(xué)習(xí)形容為數(shù)據(jù)挖掘、數(shù)據(jù)分析和預(yù)測(cè)模型。因此,它是有很多名字的。

 

 

(圖片說明:統(tǒng)計(jì)學(xué),“機(jī)器學(xué)習(xí)是我那愛趕時(shí)髦的小屁孩兒。”)

我在研究生院的統(tǒng)計(jì)學(xué)教授就常常開玩笑說,其實(shí)他們研究的算法知識(shí)與計(jì)算機(jī)系的算法知識(shí)是很接近的。但不同的領(lǐng)域取的名字不一樣,拿的政府基金也不一樣。計(jì)算機(jī)系總是更有優(yōu)勢(shì)的。

機(jī)器學(xué)習(xí)非常年輕,是非常關(guān)注在行業(yè)的應(yīng)用的。而統(tǒng)計(jì)學(xué)的歷史悠久,其源自于對(duì)農(nóng)業(yè)和社會(huì)學(xué)的研究。統(tǒng)計(jì)學(xué)擁有堅(jiān)實(shí)的基礎(chǔ),而機(jī)器學(xué)習(xí)作為一個(gè)年輕的學(xué)科,統(tǒng)計(jì)學(xué)是可以成為其理論基礎(chǔ)的。

 

 

(圖片說明:統(tǒng)計(jì)學(xué)的特點(diǎn)是歷史悠久而成熟。)

一個(gè)很好地比較兩個(gè)學(xué)科的方法,就是看這兩個(gè)學(xué)科的最頂級(jí)的雜志。例如機(jī)器學(xué)習(xí)的頂級(jí)雜志是《模式識(shí)別和機(jī)器智能》。我們找到三篇比較典型的文章例子。第一篇雜志文章是“關(guān)于瀏覽檢索圖像數(shù)據(jù)的紋理特征”,第二篇文章是一個(gè)叫“Pfinder:實(shí)時(shí)追蹤你的人體”,最后一篇是“一個(gè)靈活的相機(jī)校準(zhǔn)新技術(shù)”。

 

 

(圖片說明:機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)兩門學(xué)科的頂級(jí)雜志文章對(duì)比。左為機(jī)器學(xué)習(xí)頂級(jí)刊物《模式識(shí)別和機(jī)器智能》,右為統(tǒng)計(jì)學(xué)頂級(jí)刊物《統(tǒng)計(jì)學(xué)年鑒》)

而統(tǒng)計(jì)學(xué)的頂級(jí)雜志《統(tǒng)計(jì)學(xué)年鑒》中,我們也可以找到比較典型的機(jī)器學(xué)習(xí)的文章,例如“如何估計(jì)一個(gè)模型的維度”,又例如“依賴關(guān)系下多重測(cè)試中的虛假發(fā)現(xiàn)率的一個(gè)控制方法”等等。

機(jī)器學(xué)習(xí)作為一個(gè)新興的用詞,跟高科技的連接是非常緊密的。而統(tǒng)計(jì)作為一個(gè)比較歷史悠久的學(xué)科,相比高科技的整個(gè)運(yùn)行要稍微延后一些。

而兩個(gè)學(xué)科在處理結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)的能力方面也不盡相同。機(jī)器學(xué)習(xí)是為機(jī)器而設(shè)計(jì)的算法,所以其關(guān)注點(diǎn)是做預(yù)測(cè)和做決策。

它會(huì)從非常早期就開始更關(guān)注于計(jì)算的有效性,因?yàn)樗悴凰愕贸鰜碇苯記Q定這個(gè)算法的成敗。而統(tǒng)計(jì)學(xué)更多是為我們?nèi)祟惖睦斫夂皖A(yù)測(cè)而設(shè)計(jì)的。例如整個(gè)社會(huì)的就業(yè)率這一類的問題,是不用太關(guān)心整個(gè)計(jì)算的成本的。一直到最近,計(jì)算成本才在統(tǒng)計(jì)行業(yè)中得到關(guān)注。

就統(tǒng)計(jì)學(xué)而言,其主要應(yīng)用于經(jīng)濟(jì)學(xué)、社會(huì)科學(xué)、醫(yī)學(xué)等一些領(lǐng)域。大部分情況下,數(shù)據(jù)量并不大。所以統(tǒng)計(jì)學(xué)家并不認(rèn)為計(jì)算成本是一個(gè)很大的問題,但最近10年,這種情況發(fā)生了較大的改變。因?yàn)樵谏锖突驅(qū)W中,單純的統(tǒng)計(jì)模型已經(jīng)無法解決里面的統(tǒng)計(jì)難點(diǎn)了。

很多朋友會(huì)問我們到底什么時(shí)候使用機(jī)器學(xué)習(xí)、什么時(shí)候會(huì)用到統(tǒng)計(jì)學(xué)知識(shí)。當(dāng)你的數(shù)據(jù)非常特別的時(shí)候,例如如果你的數(shù)據(jù)是視頻流數(shù)據(jù),或者Youtube的數(shù)據(jù),又如在美國有一家非常知名的安全數(shù)據(jù)計(jì)算公司叫做Palantir,他們受美國國土安全局的委托,通過他們的算法來尋找恐怖分子的位置。

這樣的數(shù)據(jù)是非常大的。又或者像Facebook,它擁有很多實(shí)時(shí)上傳的數(shù)據(jù),這一類數(shù)據(jù)用傳統(tǒng)模型和算法都無法處理。因此較好的方法是機(jī)器學(xué)習(xí)。

而當(dāng)你的結(jié)果需要非常仔細(xì)地詮釋的時(shí)候,而這種詮釋又非常重要的時(shí)候,你應(yīng)該使用統(tǒng)計(jì)。例如說,整個(gè)人口的增長率、社會(huì)的就業(yè)率,又比如說數(shù)據(jù)有明顯的結(jié)構(gòu),比如說你的預(yù)測(cè)變量和反應(yīng)變量是有很清楚的定義的。

又例如在一些很重要的行業(yè),比如風(fēng)險(xiǎn)控制,理論基礎(chǔ)是非常重要的。你不能通過黑箱的操作來做模型的時(shí)候,就必須使用統(tǒng)計(jì)。

像金融海嘯之后,美國的司法部門和監(jiān)管部門是禁止將非常復(fù)雜的算法用于金融行業(yè)的。因?yàn)樗鼈儧]有辦法被詮釋。所有的算法似乎是黑盒子里計(jì)算出來的。因而在這些領(lǐng)域,更傳統(tǒng)的統(tǒng)計(jì)模型得到了青睞。

機(jī)器學(xué)習(xí)科學(xué)家和統(tǒng)計(jì)學(xué)家現(xiàn)在有了越來越多的交流,比如,機(jī)器學(xué)習(xí)已經(jīng)開始發(fā)展出更多的理論基礎(chǔ)。

而通過與機(jī)器學(xué)習(xí)科學(xué)家的合作,統(tǒng)計(jì)學(xué)家也試圖結(jié)合機(jī)器學(xué)習(xí)來拓寬他們的研究領(lǐng)域。在不久的未來,這兩個(gè)學(xué)科的邊界將越來越不明顯,而同時(shí)演化成數(shù)據(jù)科學(xué)。

 

 

(圖片說明:機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)未來很有可能演變成同一個(gè)新學(xué)科:數(shù)據(jù)科學(xué)。)

▍有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí),如何區(qū)分?

現(xiàn)在我們來看一些機(jī)器學(xué)習(xí)在業(yè)界應(yīng)用的具體例子。

首先,機(jī)器學(xué)習(xí)可以分成有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。二者之間的區(qū)分,可以舉個(gè)例子,比如,現(xiàn)在有一堆石頭,你采集石頭樣本中各種元素的含量,想知道這塊石頭是不是隕石。

由于隕石和非隕石的定義是很清楚的,這樣的例子就叫做有監(jiān)督學(xué)習(xí)。相應(yīng)的無監(jiān)督學(xué)習(xí)的意思是,當(dāng)你沒有清晰定義的因變量,也沒有清楚標(biāo)注過的數(shù)據(jù),這樣的情況就叫做無監(jiān)督學(xué)習(xí)。就如你擁有很多不同用戶的手機(jī)使用數(shù)據(jù),但你并不清楚每個(gè)使用者可以被歸為哪個(gè)類型。你只知道這些用戶的行為模式。

我們?cè)倏戳硗獾睦樱热缒憧梢酝ㄟ^社交媒體如Facebook等采集關(guān)于大選投票人的數(shù)據(jù),我們可以將不同的人群分成不同的政治傾向,標(biāo)注為共和黨或者民主黨員,或者是青睞這兩個(gè)黨的不同受眾。

 

 

(圖片說明:有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的區(qū)別在于:監(jiān)督學(xué)習(xí)有明確的標(biāo)簽,比如上圖中,可以按照政治傾向,將美國的人群分為共和黨支持者、民主黨支持者。)

相應(yīng)的,一個(gè)無監(jiān)督學(xué)習(xí)的例子是你可以做一個(gè)所謂的社區(qū)分類。社區(qū)分類被廣泛使用在整個(gè)網(wǎng)絡(luò)(Network)的分析,可以幫助我們找到一些我們之前不了解的關(guān)于用戶的信息。

比如這個(gè)用戶并沒有明顯地展示他的政治傾向的時(shí)候,但它屬于一個(gè)偏向民主黨的社區(qū),那么這個(gè)用戶就可能成為一個(gè)支持民主黨的人。

 

 

(圖片說明:無監(jiān)督學(xué)習(xí)中,往往會(huì)將人群分為一個(gè)個(gè)社區(qū)。通過人群所在的社區(qū),再去推測(cè)他們的政黨傾向。)

可以來看上圖這個(gè)例子中的不同顏色,每一種顏色指的是一個(gè)大致的社區(qū)的分類。這種社區(qū)的區(qū)分概念現(xiàn)在越來越多地得到整個(gè)學(xué)界的關(guān)注,因?yàn)樗倪吔缡呛苣:,需要更多的研究方法來找到它們的聚類,來找到區(qū)分方法。

再看另一個(gè)例子,比如亞馬遜公司想要研究哪一類人最有可能購買Kindle閱讀器。這一類的研究方法就是有監(jiān)督的學(xué)習(xí),因?yàn)樗麄円呀?jīng)收集了很多關(guān)于用戶的信息,他們有明顯的標(biāo)簽,買或者沒買。

整個(gè)數(shù)據(jù)挖掘和分析過程并不是一蹴而就的,你會(huì)發(fā)現(xiàn)在對(duì)商業(yè)數(shù)據(jù)的采集、建模過程中,可能要好幾個(gè)來回,才能最終定下所有階段的需求、項(xiàng)目的分析等等,以上都是需要很多時(shí)間來調(diào)整的。這里可以看某個(gè)樣本數(shù)據(jù)的分析過程:

 

 

這其實(shí)是一個(gè)語音素材的文本識(shí)別和提取的過程,并不是一步兩步就可以輕松解決的。

▍機(jī)器學(xué)習(xí)案例:購買過iPhone 5的人,還會(huì)買iPhone 6嗎?

另外一個(gè)常見的問題是,機(jī)器學(xué)習(xí)告訴我們的是已經(jīng)知道的知識(shí)嗎?并不是。機(jī)器學(xué)習(xí)更關(guān)注的是不那么容易得到的非表面化的一些知識(shí)。能通過簡單的統(tǒng)計(jì)分析而了解到的知識(shí),不能稱它為機(jī)器學(xué)習(xí)。

另一點(diǎn)要強(qiáng)調(diào)的是,整個(gè)數(shù)據(jù)探索和分析的過程,是想通過自動(dòng)化和半自動(dòng)化的方法來對(duì)大量的數(shù)據(jù),做有意義的行為模式的探索。

機(jī)器學(xué)習(xí)的算法可以被分為另外兩類:一類是預(yù)測(cè)性的方法,這種方法是通過一些變量來預(yù)測(cè)未知的、可能的變量數(shù)值,另一類叫做描述性的方法,是告訴你一些人類可以輕松理解的行為模式,而這種模式可以很好地描述這個(gè)數(shù)據(jù)。

舉例來說,分類算法、線性回歸、非尋常情況的檢測(cè)都是一種預(yù)測(cè)性的方法。而聚類、相關(guān)規(guī)則的探索則是一種描述性的方法。

每種算法操作起來都是非常不同的。比如說,分類算法要求這個(gè)數(shù)據(jù)集中的每條記錄都有很多不同的屬性,你的目標(biāo)是通過這些所有的屬性來尋找一個(gè)模型,這個(gè)模型可以將你沒有見過的一個(gè)新的數(shù)據(jù)分配成正確的那種。

 

 

上面這張圖片中展示的是一個(gè)經(jīng)典的Iris數(shù)據(jù)集的例子。這一數(shù)據(jù)集采集了各種花卉的花萼的寬度、長度等信息,通過機(jī)器學(xué)習(xí)的方法,通過分類算法,可以有效地將三類花區(qū)分出來。

例如左邊第二排第一張圖,你可以明顯的看到,綠色、橘色、藍(lán)色的三個(gè)分組。當(dāng)然你可能會(huì)注意到,這個(gè)分組的邊界并不是那么清晰,橘色和藍(lán)色會(huì)有一些重疊的部分,這些部分就是沒有辦法百分之百準(zhǔn)確預(yù)測(cè)到的部分。

一個(gè)比較常見的分類算法在商業(yè)中的應(yīng)用,例如我們可以找到正確的受眾群,來減少我們推廣的成本。比如,我們想寄郵件、寄信給消費(fèi)者,促使其購買新的手機(jī)產(chǎn)品,一個(gè)比較常見的做法是用類似的產(chǎn)品的數(shù)據(jù)來做預(yù)測(cè)。

如果這個(gè)人購買過iPhone 5,其購買iPhone 6的可能性也可以做些預(yù)測(cè)。

如果我們可以采集到購買iPhone 5 和不購買iPhone 5的消費(fèi)者的行為模式和其他一些基本資料,比如地域分布、生活習(xí)慣、他們?cè)诰W(wǎng)上看什么數(shù)據(jù)、有沒有搜索過iPhone 6的數(shù)據(jù),是否有給蘋果支持中心打過電話要求支持等等,這一類的數(shù)據(jù)都可以幫助我們來作為自變量,來做一個(gè)分類模型,從而幫助我們做出決定,找到購買可能性比較高的那些消費(fèi)者。

 

 

另外一個(gè)案例是如何檢測(cè)出非正常的情況。上面這張圖中有很多圖像的識(shí)別處理,左上角的灰色圖片是不同的時(shí)間點(diǎn)截下來的圖片,將這些圖片進(jìn)行降維分析,從多維數(shù)據(jù)降到三維數(shù)據(jù),然后你可以看到第二排的第一張圖——所謂的熱點(diǎn)圖,其中那個(gè)紅色和黃色的熱點(diǎn),是區(qū)分出這個(gè)人的行為跟大部分在人行道上的人的行為不同之處。

他也許是走在了人行道的邊界,即將走出人行道,或者是他有撞上別人,或者是他在人行道上騎自行車。這些非正常的行為都是可以通過圖像識(shí)別來抓取的。據(jù)我了解,中國的警方已經(jīng)實(shí)現(xiàn)了這類基本的圖像識(shí)別,來檢測(cè)道路上的非正常行為模式。

機(jī)器學(xué)習(xí)的例子很多,接下來再舉一個(gè)美國的例子。美國的國立衛(wèi)生研究所(NIH)每年都會(huì)給很多不同的學(xué)科以基金資助,通過機(jī)器學(xué)習(xí),你可以找到這些學(xué)科之間的聚類關(guān)系。比如說神經(jīng)網(wǎng)絡(luò)系統(tǒng)和生物分子、生物系統(tǒng)是有很強(qiáng)的連接的。而健康信息和行為模式的分類下又有風(fēng)險(xiǎn)管理、風(fēng)險(xiǎn)預(yù)防這一類的研究方向。這樣區(qū)分之后,可以幫助你更好地作出選擇,看你的文章適合發(fā)到哪一類的雜志上,應(yīng)該去申請(qǐng)哪一類的基金支持。

機(jī)器學(xué)習(xí)在商業(yè)中的應(yīng)用方式還有很多,希望今后能有更多的機(jī)會(huì)再跟大家分享。

本文作者張尚軒(Vivian Zhang),美國紐約數(shù)據(jù)科學(xué)學(xué)院(NYC Data Science Academy)首席數(shù)據(jù)科學(xué)家。有多年數(shù)據(jù)挖掘、數(shù)據(jù)分析經(jīng)驗(yàn),擅長R、Python、Handoop、Spark等編程語言。曾被福布斯雜志評(píng)為“數(shù)據(jù)分析領(lǐng)域的9位女性”之一。

標(biāo)簽: 安全 大數(shù)據(jù) 互聯(lián)網(wǎng) 金融 媒體 數(shù)據(jù)分析 搜索 推廣 網(wǎng)絡(luò)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:從零開始用Python構(gòu)建神經(jīng)網(wǎng)絡(luò)

下一篇:為什么你需要改進(jìn)訓(xùn)練數(shù)據(jù),如何改進(jìn)?