中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

機(jī)器學(xué)習(xí)平臺(tái)和數(shù)據(jù)科學(xué)平臺(tái)究竟是什么?

2019-12-23    來(lái)源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

作者:Ron Schmelzer 譯者:核子可樂(lè) 來(lái)源:InfoQ

過(guò)去幾年,各大科技廠商開(kāi)放了各種各樣的“平臺(tái)”,比如大數(shù)據(jù)平臺(tái)、機(jī)器學(xué)習(xí)平臺(tái)等,用于滿(mǎn)足數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)需求,這些平臺(tái)爭(zhēng)相奪取數(shù)據(jù)科學(xué)家、機(jī)器學(xué)習(xí)項(xiàng)目經(jīng)理以及其他 AI 項(xiàng)目管理與規(guī)劃者的關(guān)注以及錢(qián)包。本文作者 Ron Schmelzer 是 AI 研究咨詢(xún)公司 Cognilytica 的執(zhí)行合伙人兼首席分析師,在他看來(lái),很多機(jī)器學(xué)習(xí)平臺(tái)并不符合規(guī)范,卻可以不斷占據(jù)市場(chǎng)份額。那么,機(jī)器學(xué)習(xí)平臺(tái)應(yīng)該具備哪些條件?存在合格的機(jī)器學(xué)習(xí)平臺(tái)嗎?
 

這些平臺(tái)究竟是什么?

對(duì)于各大科技公司努力做機(jī)器學(xué)習(xí)平臺(tái)的行為,我很能理解,畢竟作為主要的技術(shù)供應(yīng)商,如果沒(méi)在 AI 領(lǐng)域弄出點(diǎn)動(dòng)靜,可能很快就被市場(chǎng)遺忘了。但是,這些平臺(tái)究竟是什么?為什么會(huì)出現(xiàn)這么激烈的市場(chǎng)競(jìng)爭(zhēng)狀態(tài)?

要回答這個(gè)問(wèn)題,關(guān)鍵在于意識(shí)到機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)項(xiàng)目,同以往典型應(yīng)用程序或硬件開(kāi)發(fā)項(xiàng)目之間的區(qū)別。過(guò)去,硬件與軟件開(kāi)發(fā)工作的重點(diǎn)在于系統(tǒng)或者應(yīng)用程序功能。相反,數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)項(xiàng)目更強(qiáng)調(diào)數(shù)據(jù)管理,持續(xù)不斷地從數(shù)據(jù)中學(xué)習(xí)知識(shí),并對(duì)數(shù)據(jù)模型進(jìn)行迭代演進(jìn)。從以數(shù)據(jù)為中心的角度來(lái)看,傳統(tǒng)的開(kāi)發(fā)流程與平臺(tái)在這類(lèi)新場(chǎng)景中根本無(wú)法正常起效。所以,我們需要新的平臺(tái)。

數(shù)據(jù)科學(xué)平臺(tái)是什么?

數(shù)據(jù)科學(xué)家們的任務(wù)是從海量數(shù)據(jù)中整理出有用信息,并將業(yè)務(wù)與運(yùn)營(yíng)信息轉(zhuǎn)化為數(shù)據(jù)與數(shù)學(xué)語(yǔ)言。數(shù)據(jù)科學(xué)家需要掌握統(tǒng)計(jì)學(xué)、概率、數(shù)學(xué)以及算法相關(guān)知識(shí),借此從大量信息中收集有用的洞察見(jiàn)解。數(shù)據(jù)科學(xué)家還負(fù)責(zé)創(chuàng)建數(shù)據(jù)假設(shè)、運(yùn)行數(shù)據(jù)測(cè)試與分析,而后將結(jié)果轉(zhuǎn)換為組織內(nèi)能夠輕松查看與理解的形式。

因此,一套純數(shù)據(jù)科學(xué)平臺(tái)應(yīng)當(dāng)滿(mǎn)足以下要求:協(xié)助構(gòu)建數(shù)據(jù)模型、確定最適合當(dāng)前信息的假設(shè)、測(cè)試假設(shè)、促進(jìn)數(shù)據(jù)科學(xué)家團(tuán)隊(duì)之間的協(xié)作,并隨信息的不斷變化推動(dòng)數(shù)據(jù)模型的管理與開(kāi)發(fā)。

此外,數(shù)據(jù)科學(xué)家的工作重點(diǎn)并不在以代碼為中心的集成開(kāi)發(fā)環(huán)境(IDE)中。相反,Notebook 才是他們的天地。Notebook 概念最初由 Mathematica 及 Matlab 等以數(shù)學(xué)為中心的學(xué)術(shù)型平臺(tái)提出,目前在 Python、R 以及 SAS 社區(qū)當(dāng)中非常流行。所謂 Notebook,其本質(zhì)在于記錄數(shù)據(jù)研究結(jié)果,并允許用戶(hù)面向不同源數(shù)據(jù)加以運(yùn)行,從而簡(jiǎn)化結(jié)果的可重復(fù)性。良好的 Notebook 應(yīng)充當(dāng)一種共享式協(xié)作環(huán)境,數(shù)據(jù)科學(xué)家小組可以在這里協(xié)同工作,并利用不斷發(fā)展的數(shù)據(jù)集進(jìn)行模型迭代。盡管,Notebook 不能算是代碼開(kāi)發(fā)的理想環(huán)境,但卻能夠?yàn)閿?shù)據(jù)的協(xié)作、探索以及可視化提供強(qiáng)有力的支持。事實(shí)上,如果擁有足夠的訪問(wèn)權(quán)限對(duì)接清潔數(shù)據(jù),那么數(shù)據(jù)科學(xué)家們將毫不猶豫地利用 Notebooke 快速瀏覽大型數(shù)據(jù)集。

但是,如果無(wú)法訪問(wèn)大量清潔數(shù)據(jù),數(shù)據(jù)科學(xué)家的工作則會(huì)陷入困境。很明顯,數(shù)據(jù)的提取、清理與移動(dòng)并不是數(shù)據(jù)科學(xué)家的職責(zé)所在,這些工作應(yīng)該由數(shù)據(jù)工程師負(fù)責(zé)完成。數(shù)據(jù)工程師面對(duì)的主要挑戰(zhàn)就是從各類(lèi)系統(tǒng)中提取結(jié)構(gòu)化與非結(jié)構(gòu)化格式的數(shù)據(jù),而且這些數(shù)據(jù)往往并不“清潔”——存在缺少字段、數(shù)據(jù)類(lèi)型不匹配以及其他與數(shù)據(jù)形式相關(guān)的種種問(wèn)題。

從這個(gè)角度來(lái)看,數(shù)據(jù)工程師實(shí)際上屬于負(fù)責(zé)設(shè)計(jì)、構(gòu)建以及安排數(shù)據(jù)的工程人員。優(yōu)秀的數(shù)據(jù)科學(xué)平臺(tái)還應(yīng)幫助數(shù)據(jù)科學(xué)家輕松根據(jù)需求的增長(zhǎng)動(dòng)用計(jì)算能力。平臺(tái)無(wú)需將數(shù)據(jù)集復(fù)制至本地計(jì)算機(jī)上即可開(kāi)始工作,確保數(shù)據(jù)科學(xué)家始終以最簡(jiǎn)單便捷的方式訪問(wèn)算力與數(shù)據(jù)集。為了實(shí)現(xiàn)這一目標(biāo),數(shù)據(jù)科學(xué)平臺(tái)當(dāng)然也需要提供必要的數(shù)據(jù)工程功能?偨Y(jié)來(lái)講,一套實(shí)用的數(shù)據(jù)科學(xué)平臺(tái)應(yīng)當(dāng)具備一系列數(shù)據(jù)科學(xué)與數(shù)據(jù)工程功能元素。

機(jī)器學(xué)習(xí)平臺(tái)是什么?

誰(shuí)能真正簡(jiǎn)化機(jī)器學(xué)習(xí)模型的創(chuàng)建、訓(xùn)練與迭代,誰(shuí)就能在這場(chǎng)競(jìng)賽中勝出。

事實(shí)上,機(jī)器學(xué)習(xí)平臺(tái)和數(shù)據(jù)科學(xué)平臺(tái)之間存在交集,例如都會(huì)采用數(shù)據(jù)科學(xué)技術(shù)與機(jī)器學(xué)習(xí)算法,并將其應(yīng)用于大型數(shù)據(jù)集以開(kāi)發(fā)機(jī)器學(xué)習(xí)模型。數(shù)據(jù)科學(xué)家每天使用的工具,與關(guān)注機(jī)器學(xué)習(xí)的科學(xué)家以及工程師們使用的工具也頗為相似。但是,相似并不代表相同,畢竟機(jī)器學(xué)習(xí)科學(xué)家與工程師的實(shí)際需求,與常規(guī)數(shù)據(jù)科學(xué)家與工程師還是存在一定差異的。

一般來(lái)說(shuō),負(fù)責(zé)管理機(jī)器學(xué)習(xí)項(xiàng)目的人員不僅需要管理 Notebook 與生態(tài)系統(tǒng),打理與其他 Notebook 的協(xié)作工作,同時(shí)還需要統(tǒng)籌各類(lèi)機(jī)器學(xué)習(xí)專(zhuān)用算法、庫(kù)以及基礎(chǔ)設(shè)施,進(jìn)而在龐大且不斷發(fā)展的數(shù)據(jù)集之上訓(xùn)練這些算法。理想的機(jī)器學(xué)習(xí)平臺(tái)能夠幫助機(jī)器學(xué)習(xí)工程師、數(shù)據(jù)科學(xué)家以及數(shù)據(jù)工程師了解哪種機(jī)器學(xué)習(xí)方法最為有效,如何調(diào)整超參數(shù),在基于自有或云端的 CPU、GPU 或 TPU 集群上部署計(jì)算密集型機(jī)器學(xué)習(xí)訓(xùn)練,并提供用于管理與監(jiān)控有監(jiān)督與無(wú)監(jiān)督訓(xùn)練模式所必需的生態(tài)系統(tǒng)。

很明顯,數(shù)據(jù)科學(xué)平臺(tái)需要提供一套可協(xié)作、交互式的可視化系統(tǒng),用于機(jī)器學(xué)習(xí)模型的開(kāi)發(fā)與管理,但在機(jī)器學(xué)習(xí)平臺(tái)方面,這樣的支持遠(yuǎn)遠(yuǎn)不夠。如上所述,機(jī)器學(xué)習(xí)系統(tǒng)正常運(yùn)作的一大核心挑戰(zhàn)在于超參數(shù)的設(shè)置與調(diào)整。

從概念角度出發(fā),機(jī)器學(xué)習(xí)模型需要從數(shù)據(jù)中學(xué)習(xí)各類(lèi)參數(shù)。換言之,機(jī)器學(xué)習(xí)模型實(shí)際學(xué)到的就是數(shù)據(jù)參數(shù),并借此將新數(shù)據(jù)擬合至當(dāng)前模型中。超參數(shù)是一種可配置的數(shù)據(jù)值,且無(wú)法在機(jī)器學(xué)習(xí)模型獲取實(shí)際數(shù)據(jù)前預(yù)先設(shè)置。這些超參數(shù)將直接影響到各類(lèi)因素,例如復(fù)雜性以及學(xué)習(xí)速度等。不同的機(jī)器學(xué)習(xí)算法需要不同的超參數(shù)組合,同時(shí)應(yīng)當(dāng)注意剔除其中不必要的超參數(shù)部分。在這方面,機(jī)器學(xué)習(xí)平臺(tái)有助于發(fā)現(xiàn)、設(shè)置并管理超參數(shù),特別是非機(jī)器學(xué)習(xí)類(lèi)數(shù)據(jù)科學(xué)平臺(tái)所不具備的算法選擇與比較等功能。

應(yīng)該具備什么特質(zhì)?

歸根結(jié)底,機(jī)器學(xué)習(xí)項(xiàng)目經(jīng)理想要的只是能夠提升自身工作效率的工具。 但是,機(jī)器學(xué)習(xí)項(xiàng)目復(fù)雜多樣,而且各有不同需求。其中某些項(xiàng)目專(zhuān)注于會(huì)話系統(tǒng),有一些強(qiáng)調(diào)識(shí)別或者預(yù)測(cè)分析功能,也有一些主要面向強(qiáng)化學(xué)習(xí)或者自主系統(tǒng)。

此外,這些模型的部署(或者運(yùn)營(yíng))方式也有所區(qū)別。某些模型在云端或自有服務(wù)器內(nèi),也有一些模型被部署在邊緣設(shè)備中,或者采用脫機(jī)批處理模式。數(shù)據(jù)科學(xué)家、數(shù)據(jù)工程師以及機(jī)器學(xué)習(xí)開(kāi)發(fā)人員等群體在機(jī)器學(xué)習(xí)的應(yīng)用、部署與需求等方面的差異,使得單一機(jī)器學(xué)習(xí)平臺(tái)的概念幾乎不具備實(shí)際可行性,這最終帶來(lái)了“十八般武藝,樣樣稀松”的結(jié)果。

因此,目前市面上出現(xiàn)了四種不同平臺(tái):其一專(zhuān)注于數(shù)據(jù)科學(xué)家與模型構(gòu)建者的需求;其二強(qiáng)調(diào)對(duì)大數(shù)據(jù)及數(shù)據(jù)工程的管理;其三面向模型“搭建”與模型交互系統(tǒng);其四則用于模型生命周期管理,即“機(jī)器學(xué)習(xí)運(yùn)營(yíng)”。要想真正踐行機(jī)器學(xué)習(xí)平臺(tái)做出的承諾,開(kāi)發(fā)者需要在這四個(gè)方面痛下苦功。

 

 

AI 的四種應(yīng)用環(huán)境

誰(shuí)能真正簡(jiǎn)化機(jī)器學(xué)習(xí)模型的創(chuàng)建、訓(xùn)練與迭代,誰(shuí)就能在這場(chǎng)競(jìng)賽中勝出。 在這類(lèi)強(qiáng)大解決方案的幫助下,用戶(hù)能夠快速輕松地從笨拙的非智能系統(tǒng),跨越至可利用機(jī)器學(xué)習(xí)功能,解決以往無(wú)法解決的難題。相比之下,那些無(wú)法適應(yīng)機(jī)器學(xué)習(xí)功能需求的數(shù)據(jù)科學(xué)平臺(tái)則將遭遇降級(jí)。同樣的,那些天然具備數(shù)據(jù)工程能力的大數(shù)據(jù)平臺(tái)也將在市場(chǎng)上成為贏家。 未來(lái)的應(yīng)用程序開(kāi)發(fā)工具亦需要著力將機(jī)器學(xué)習(xí)模型視為生命周期中的主要組成部分?偨Y(jié)來(lái)講,機(jī)器學(xué)習(xí)運(yùn)營(yíng)才剛剛出現(xiàn),且必將在未來(lái)幾年內(nèi)成為行業(yè)中的又一大事件。

大家在爭(zhēng)些什么?

毫無(wú)疑問(wèn),不同規(guī)模的各類(lèi)技術(shù)供應(yīng)商都將重點(diǎn)放在平臺(tái)開(kāi)發(fā)上,畢竟數(shù)據(jù)科學(xué)家與機(jī)器學(xué)習(xí)項(xiàng)目經(jīng)理必須依賴(lài)這些平臺(tái)來(lái)開(kāi)發(fā)、運(yùn)行、操作以及管理企業(yè)中正在使用的數(shù)據(jù)模型。

對(duì)于這些供應(yīng)商而言,未來(lái)的機(jī)器學(xué)習(xí)平臺(tái)如同過(guò)去以及當(dāng)下已存在的操作系統(tǒng)、云環(huán)境乃至移動(dòng)開(kāi)發(fā)平臺(tái)一樣。只要能夠在數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)平臺(tái)領(lǐng)域占據(jù)市場(chǎng)份額,廠商就能夠在未來(lái)幾十年獲得豐厚的回報(bào)。

結(jié)果就是,在這場(chǎng)新興斗爭(zhēng)中,每位參與者都希望盡可能攫取更可觀的市場(chǎng)份額。

所以,當(dāng)供應(yīng)商在宣傳中提到他們擁有人工智能或者機(jī)器學(xué)習(xí)平臺(tái)時(shí),我們不妨多問(wèn)一句:“是哪一種平臺(tái)?”,通過(guò)本文,相信大家已經(jīng)意識(shí)到這世界上存在著不只一種機(jī)器學(xué)習(xí)平臺(tái),而且各自面向不同的實(shí)際需求。多一點(diǎn)思考,才能確保我們不會(huì)因身陷市場(chǎng)炒作而信錯(cuò)廠商、選錯(cuò)產(chǎn)品。

原文鏈接:

https://www.forbes.com/sites/cognitiveworld/2019/12/12/theres-no-such-thing-as-the-machine-learning-platform/#326f9b96a8dd

標(biāo)簽: 機(jī)器學(xué)習(xí)平臺(tái) 數(shù)據(jù) 蒲教

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:哪種編程語(yǔ)言最適合區(qū)塊鏈?

下一篇:Google,Uber和Facebook為數(shù)據(jù)科學(xué)和AI開(kāi)發(fā)的開(kāi)源項(xiàng)目