中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

紐約大學(xué)陳溪: AlphaGo Zero技術(shù)演進(jìn)的必然性

2018-08-25    來源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬Linux鏡像隨意使用

本講座選自紐約大學(xué)助理教授陳溪近日在2018第二屆杉數(shù)科技AI大師圓桌會(huì)上所做的題為《 AlphaGo Zero技術(shù)演進(jìn)的必然性-機(jī)器學(xué)習(xí)與決策的有機(jī)結(jié)合》的演講。

陳溪:今天我要跟大家分享一下為什么要把機(jī)器學(xué)習(xí)和運(yùn)籌學(xué)這兩個(gè)學(xué)科結(jié)合起來,才能有效地解決很多實(shí)際的問題。

一、機(jī)器學(xué)習(xí)

 

 

什么是機(jī)器學(xué)習(xí)?首先需要有一堆數(shù)據(jù),然后有機(jī)器學(xué)習(xí)的算法,對(duì)于數(shù)據(jù)的統(tǒng)計(jì)建模、概率建模和數(shù)據(jù)的假設(shè)來作為算法的支撐。機(jī)器學(xué)習(xí)一般常用的應(yīng)用是對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè),比如預(yù)測(cè)明天股票的價(jià)格,這種都是一些基礎(chǔ)的預(yù)測(cè),更重要的是通過機(jī)器學(xué)習(xí),去學(xué)習(xí)數(shù)據(jù)中的一些模式。

 

 

機(jī)器學(xué)習(xí)從大的角度分成兩類:監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)(Supervised Learning & Unsupervised Learning)。比如我們通過房間里的照片來識(shí)別人臉,用某些方式進(jìn)行一定的標(biāo)注來確定人臉在什么地方,這時(shí)候我們就叫做有監(jiān)督的學(xué)習(xí)。監(jiān)督學(xué)習(xí)的框架如上圖所示,根據(jù)預(yù)測(cè)的函數(shù),把機(jī)器學(xué)習(xí)的特征映射到值域上。

 

 

沒有監(jiān)督的學(xué)習(xí)是一個(gè)更加廣泛的領(lǐng)域,比如我們需要把圖片進(jìn)行分類,這是完全根據(jù)人的需求和感覺,通過機(jī)器學(xué)習(xí)方法進(jìn)行分類。

 

 

深度學(xué)習(xí)是一個(gè)自動(dòng)提取特征的有效工具,比如圖像的結(jié)構(gòu)化讓深度學(xué)習(xí)得以提取足夠的特征。然而并不是每個(gè)領(lǐng)域的數(shù)據(jù)都能夠通過深度學(xué)習(xí)的方式把有效的特征提取出來,比如在很多金融領(lǐng)域,一定要把深度學(xué)習(xí)與非深度學(xué)習(xí)的方法進(jìn)行有效的比對(duì)。

二、從學(xué)習(xí)到?jīng)Q策

傳統(tǒng)的機(jī)器學(xué)習(xí)通常處理靜態(tài)數(shù)據(jù),但是這并不能滿足很多商業(yè)需求,許多商業(yè)應(yīng)用最終需要做決策。

 

 

上面這張圖把整個(gè)數(shù)據(jù)分析分成五個(gè)階段:

第一階段:Descriptive(描述性),對(duì)數(shù)據(jù)進(jìn)行基本的描述;

第二階段:Diagnostic(診斷性),對(duì)數(shù)據(jù)進(jìn)行基本的診斷;

第三階段:Discovery(發(fā)現(xiàn)),挖掘數(shù)據(jù)內(nèi)在的模型;

第四階段:Predictive(預(yù)測(cè)性),預(yù)測(cè)可能發(fā)生的情況的分析;

第五階段:Prescriptive(指定性),數(shù)據(jù)驅(qū)動(dòng)決策的過程。

 

 

在現(xiàn)實(shí)領(lǐng)域中,我們會(huì)遇到很多決策的問題,比如決策庫存量、設(shè)施位置、路線規(guī)劃、商品價(jià)格等。

 

 

AlphaGo Zero,作為圍棋的一個(gè)重大進(jìn)展,它不僅要對(duì)對(duì)手進(jìn)行預(yù)測(cè),同時(shí)還要對(duì)落子進(jìn)行決策。所以Google設(shè)計(jì)了deep reinforcement learning(深度強(qiáng)化學(xué)習(xí)),它帶有決策的成分,通過Monte Carlo tree search(蒙特卡洛樹搜索),讓機(jī)器和機(jī)器自己進(jìn)行對(duì)戰(zhàn),從而進(jìn)行學(xué)習(xí)。不管是學(xué)習(xí)還是決策,Simulation technique(模擬技術(shù))在AlphaGo Zero中也很重要。

對(duì)于商業(yè)應(yīng)用仍然很簡單,這是為什么?在一個(gè)圍棋的程序中,盡管搜索空間很大,信息是完整的,然后目標(biāo)函數(shù)簡單而明確(贏或輸),而在商業(yè)決策過程中,目標(biāo)函數(shù)可能會(huì)非常復(fù)雜。

 

 

這個(gè)研究工作叫Assortment optimization,基本上是一個(gè)推薦系統(tǒng),比如搜索一個(gè)航班,它會(huì)自動(dòng)幫我挑出性價(jià)比最高的幾個(gè)航班。

 

 

做Assortment optimization?首先,我們要了解客戶的購買行為,然后用choice model(選擇模型)去做選擇。

 

 

MNL是Logit類模型的基本型式,其選擇一個(gè)產(chǎn)品的概率等于這個(gè)產(chǎn)品的效率(用戶喜歡的程度)除上所有推薦產(chǎn)品的效率總和加1(S:推薦的產(chǎn)品,a:選擇的產(chǎn)品,1:用戶什么產(chǎn)品都不喜歡)。

在現(xiàn)實(shí)生活中還有很多復(fù)雜的情況,MNL不可能是一直有效的模型。

 

 

Nested logit models是先選擇一個(gè)大類,然后在大類中再進(jìn)行產(chǎn)品的選擇,如上圖所示,概率分成兩部分,一部分是選擇毛衣的概率,另一部分是選擇毛衣的具體款式的概率,這樣就構(gòu)建了一個(gè)多層的選擇過程。

 

 

給定choice model,如何選擇最好的產(chǎn)品推薦給客戶?我們選擇一個(gè)S(推薦的產(chǎn)品)做組合優(yōu)化,使得它數(shù)學(xué)期望值的收益最大化。然而,現(xiàn)實(shí)生活中更復(fù)雜的問題是你并不知道用戶選擇產(chǎn)品的概率。

 

 

Ruelala和唯品會(huì)是快消品的銷售平臺(tái),銷售時(shí)間很短,沒有足夠多的歷史數(shù)據(jù)去學(xué)習(xí)用戶對(duì)產(chǎn)品的喜好程度。Facebook在做在線廣告的時(shí)候,若產(chǎn)品的選擇數(shù)以百萬計(jì),這時(shí)候就無法估計(jì)用戶對(duì)每一個(gè)產(chǎn)品的喜好程度。所以我們需要?jiǎng)討B(tài)推薦系統(tǒng),把機(jī)器學(xué)習(xí)和智能決策結(jié)合起來。

 

 

上圖是簡單的動(dòng)態(tài)雛形,在每一個(gè)時(shí)刻我們假設(shè)給用戶做一個(gè)產(chǎn)品的推薦,通過用戶購買情況,不斷的學(xué)習(xí)和做決策,一直到整個(gè)銷售區(qū)間終止。如果知道用戶的選擇概率,可以把它做成靜態(tài)的優(yōu)化問題,如果不知道,就做成一個(gè)動(dòng)態(tài)的優(yōu)化問題。

 

 

怎么評(píng)估算法的好壞?在學(xué)術(shù)圈有一個(gè)叫Regret analysis的方法:將最佳分類與選擇分類預(yù)期收益均差最小化。我們的目標(biāo)是構(gòu)造一個(gè)機(jī)器學(xué)習(xí)和決策的算法,使得在時(shí)間足夠長的時(shí)候,收益差非常小,以及收益差怎么減少。

 

 

這些模型雖然很有用,但還不夠復(fù)雜,機(jī)器學(xué)習(xí)的精髓在于特征的提取,比如利用上下文的信息,把用戶和產(chǎn)品的特征提取出來,做一個(gè)動(dòng)態(tài)的Choice Model,這樣就能更好的服務(wù)于現(xiàn)實(shí)。

 

 

沃爾瑪做過類似的工作,根據(jù)用戶已經(jīng)放在購物車?yán)锏漠a(chǎn)品,在最后結(jié)賬的過程中再推薦產(chǎn)品。

三、總結(jié)

 

 

很多商業(yè)的問題極其復(fù)雜,我們要深入理解問題本質(zhì)的結(jié)構(gòu),機(jī)器學(xué)習(xí)與決策要有機(jī)的結(jié)合起來。只有把機(jī)器學(xué)習(xí)過程,隨機(jī)的建模和優(yōu)化全部柔和在一起,我們才能對(duì)大數(shù)據(jù)進(jìn)行更好的理解和處理。

標(biāo)簽: Google 大數(shù)據(jù) 金融 數(shù)據(jù)分析 搜索

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:主流大數(shù)據(jù)處理技術(shù)及應(yīng)用方案

下一篇:《2018中國大數(shù)據(jù)發(fā)展指數(shù)報(bào)告》發(fā)布:廣東、上海、貴州、北京、重慶領(lǐng)先