中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

數(shù)據(jù)科學(xué)即將迎來“無代碼”時代

2018-10-23    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

我們正在進入數(shù)據(jù)科學(xué)實踐的新階段,即“無代碼”時代。 像所有重大的變化一樣,這個變化還沒有在實踐中清晰地體現(xiàn),但這個變化影響深遠,發(fā)展趨勢非常明顯。

現(xiàn)在,每一周都會有一些自動代碼行業(yè)的最新進展。創(chuàng)業(yè)公司的集成產(chǎn)品是有一些進展的,不過更多見的是基于現(xiàn)有分析平臺供應(yīng)商新添加的功能或模塊。

自從自動化機器學(xué)習(xí)(AML)平臺出現(xiàn)以來,我一直在關(guān)注它們的成長。

我在2016年春天,撰寫了一篇關(guān)于它們的文章,題目是“數(shù)據(jù)科學(xué)家將被自動化機器學(xué)習(xí)平臺取代并在2025年失業(yè)!”。

當然,我的預(yù)測不是絕對準確的,但在過去的兩年半里,自動化功能在我們機器學(xué)習(xí)行業(yè)中的發(fā)展確實非常引人注目。

不需要人工寫代碼的數(shù)據(jù)科學(xué)

 

 

無代碼數(shù)據(jù)科學(xué)(即不需要人工寫代碼的數(shù)據(jù)科學(xué)),或自動機器學(xué)習(xí),或者可以稱為簡單易用的 “增強型”數(shù)據(jù)科學(xué)產(chǎn)品,范圍包括:

附帶指導(dǎo)的平臺:具有高度指導(dǎo)功能的建模程序平臺(當然還是需要用戶完成一定步驟,這樣的平臺有BigML,SAS,Alteryx)。經(jīng)典的簡易操作平臺(drag-and-drop )是這一代的基礎(chǔ)。

自動機器學(xué)習(xí)(AML):全自動機器學(xué)習(xí)平臺(例如DataRobot)。

會話分析:在最新版本中,用戶只要提出可以通過常用英語解決的問題,平臺就會提供最佳答案,選擇數(shù)據(jù),特征,建模技術(shù),甚至可能是最佳數(shù)據(jù)可視化。

不僅僅為了先進的分析

 

 

我們工具的智能擴展從預(yù)測和規(guī)范建模,已經(jīng)擴展到了數(shù)據(jù)混合和數(shù)據(jù)準備領(lǐng)域,甚至擴展到數(shù)據(jù)視覺設(shè)計的領(lǐng)域。這意味著無代碼智能功能可提供傳統(tǒng)商學(xué)院的商業(yè)智能分析師(BI business analysts)使用,當然也可以為公民數(shù)據(jù)學(xué)者(又名Citizen Data Scientists)提供支持。

這種演變的市場驅(qū)動因素眾所周知。在高級分析和人工智能中,核心的困難在于精英數(shù)據(jù)科學(xué)家的短缺,以及其高昂的成本和迫切的需求。在這個領(lǐng)域,最需要的是洞察力,效率和一致性。簡而言之,就是效率高,速度快。

然而,上述工具在數(shù)據(jù)準備,混合,特征識別領(lǐng)域,對數(shù)據(jù)科學(xué)家來說也很重要,但是這些工具真正吸引的是有著更多數(shù)據(jù)分析師/ BI從業(yè)者的世界。在這個世界中,經(jīng)典靜態(tài)數(shù)據(jù)的ETL仍然是一個巨大的負擔(dān)和時間的延遲,它正在從IT專家的功能迅速轉(zhuǎn)向自助服務(wù)。

簡易平臺->寫代碼->回到簡易平臺

我在2001年開始從事數(shù)據(jù)科學(xué)研究時,SAS和SPSS是主要的工具,并且已經(jīng)從他們的專有代碼轉(zhuǎn)向簡易操作平臺,這便是機器學(xué)習(xí)自動化的最早形式。

在這之后的7~8年,學(xué)術(shù)界轉(zhuǎn)向R語言教學(xué),因為雖然SAS和SPSS向?qū)W生免費開放,但是他們?nèi)匀幌蚪處熓召M(盡管給學(xué)術(shù)界的折扣很大)。但是,R一直是免費的。

然后我們就到了這樣一個時代,一直持續(xù)到今天。在這個時代里,成為數(shù)據(jù)科學(xué)家意味著成為程序員。用代碼作業(yè),這就是當前這一代數(shù)據(jù)科學(xué)家受到教育的方式,也是他們在數(shù)據(jù)科學(xué)實踐的方式。

人們有著一個并不正確的誤解:在簡易操作系統(tǒng)平臺中,不允許微小超參數(shù)的調(diào)試,而這應(yīng)該被允許。如果你曾經(jīng)使用過SAS Enterprise Miner或其競爭對手的平臺上,那么您知道這個想法并不對,事實上,微調(diào)非常容易做到。

在我的腦海里,總需要寫代碼是一個不必要的彎路—這往往會讓新的數(shù)據(jù)科學(xué)實踐者忽視基礎(chǔ)知識,而致力于學(xué)習(xí)另一種編程語言。

模型質(zhì)量怎么樣

 

 

我們傾向于將“提高模型的準確性”視為高級分析是否成功的標準。有一種觀念認為,依靠自動化的無代碼解決方案會丟失部分準確性。事實并非如此。

像DataRobot,Tazi.ai和OneClick.ai這樣的AutoML平臺不僅支持并行運行數(shù)百種模型類型,還包括超參數(shù),而且它們還可以執(zhí)行變換,特征選擇甚至進行一些特征工程。在準確度上擊敗這樣的平臺是很困難的。

需要注意的是,應(yīng)用特征工程領(lǐng)域的專業(yè)知識仍然是人類的優(yōu)勢。

也許更重要的是,你在開發(fā)上花費幾周時間得到的結(jié)果和這些AutoML平臺提供的幾天甚至幾小時的結(jié)果相似,那到底哪個更值?

無代碼化帶來更深遠的影響

 

 

在我看來,無代碼化的最大受益者實際上是傳統(tǒng)數(shù)據(jù)分析師和數(shù)據(jù)學(xué)者,他們?nèi)匀蛔铌P(guān)注BI靜態(tài)數(shù)據(jù)。獨立的數(shù)據(jù)混合和準備平臺,對這個群體(以及工作量將大大減輕的IT工作者)來說,是一個巨大的好處。

這些無代碼化數(shù)據(jù)準備平臺,例如ClearStory Data,Paxata和Trifacta正在迅速將機器學(xué)習(xí)功能納入它們的流程,幫助用戶選擇合適的數(shù)據(jù)源進行數(shù)據(jù)混合,判斷哪些數(shù)據(jù)項有價值,甚至它們的功能擴展到了特征工程和特征選擇。

現(xiàn)代數(shù)據(jù)平臺正在使用嵌入式機器學(xué)習(xí)技術(shù),作為智能數(shù)據(jù)自動清洗或異常值處理的典范。

其他公司,例如Octopai公司,剛剛被Gartner評為“5大酷炫公司”之一,專注于讓用戶通過自動化技術(shù)快速查找可信數(shù)據(jù),使用機器學(xué)習(xí)和模式分析來確定不同的數(shù)據(jù)要素,創(chuàng)建的背景數(shù)據(jù),以及數(shù)據(jù)的預(yù)使用和轉(zhuǎn)換之間的關(guān)系。

這些平臺還通過強制執(zhí)行權(quán)限以及保護PID和其他類似敏感數(shù)據(jù)來實現(xiàn)數(shù)據(jù)安全的自助服務(wù)。

甚至數(shù)據(jù)可視化技術(shù)的領(lǐng)導(dǎo)者Tableau也正在使用自然語言處理(NLP)和其他機器學(xué)習(xí)(ML)工具推出會話分析功能,允許用戶以簡單的英語提出查詢要求,并收到最優(yōu)可視化效果。

這對數(shù)據(jù)科學(xué)家而言究竟意味著什么

Gartner認為,在兩年內(nèi),即到2020年前,公民數(shù)據(jù)學(xué)者(即citizen data scientist)所完成的高級分析將在數(shù)量上和價值上超越數(shù)據(jù)科學(xué)家。他們建議數(shù)據(jù)科學(xué)家專注于專業(yè)問題,并將企業(yè)級模型嵌入到應(yīng)用程序中。

我不同意此想法,這似乎會使數(shù)據(jù)科學(xué)家降級去做QA和產(chǎn)品實施(Implementation)的工作。這不是我們的本職工作。

我的看法是,由于較小的數(shù)據(jù)科學(xué)家團隊能夠處理越來越多的項目,這將迅速將高級分析的使用范圍擴大到更深入的項目組織層次。

在一兩年之間的我們的技術(shù)已經(jīng)整合了數(shù)據(jù)科學(xué)家必備的數(shù)據(jù)混合以及數(shù)據(jù)清洗功能,以及選擇最適合某個項目的預(yù)測算法的能力。這正是自動無代碼化數(shù)據(jù)科學(xué)工具正在取代的領(lǐng)域。

需要創(chuàng)建,監(jiān)控和管理成百上千個模型的公司是這種技術(shù)最早的采用者,特別是保險和金融服務(wù)行業(yè)。

那還剩下了什么?剩下了分析優(yōu)化師的高級角色。麥肯錫最近認為這是任何數(shù)據(jù)科學(xué)項目中最重要的角色。簡而言之,分析優(yōu)化師的工作如下:

1、引導(dǎo)并識別在公司業(yè)務(wù)中,在哪里數(shù)據(jù)分析可以發(fā)揮作用。

2、優(yōu)化分析的流程排序。

3、在項目中,能夠勝任項目經(jīng)理。

4、積極采用有效優(yōu)化成本效益解決方案。

換句話說,將業(yè)務(wù)問題轉(zhuǎn)化為數(shù)據(jù)科學(xué)項目,并引導(dǎo)優(yōu)化各種類型的風(fēng)險和成果,使這些項目優(yōu)先化。

那所謂的人工智能呢?

是的,我們最近在圖像,文本和語音處理中使用卷積神經(jīng)網(wǎng)絡(luò)(CNNs)和遞歸神經(jīng)網(wǎng)絡(luò)(RNNs)的最新進展中,也正在促進迅速推廣自動化無代碼化的解決方案。它們發(fā)展的速度還不夠快,是因為缺少具有深度學(xué)習(xí)技能的數(shù)據(jù)科學(xué)家,這個問題比普通的數(shù)據(jù)科學(xué)行業(yè)還要嚴重。

微軟和谷歌都在去年推出了自動深度學(xué)習(xí)平臺。這些平臺從遷移學(xué)習(xí)起步,正朝向完整的AutoDL平臺進發(fā)。詳細請參閱微軟 Custom Vision Services和Google的類似條目Cloud AutoML。

還有一些研究集成AutoDL平臺的初創(chuàng)公司。我們今年早些時候關(guān)注了OneClick.AI。它們包括了完整的AutoML和AutoDL平臺。 Gartner最近提名DimensionalMechanics稱其擁有AutoDL平臺的“5大炫酷公司”之一。

曾經(jīng)有一段時間,我試圖持續(xù)更新和整合無代碼化AutoML和AutoDL的供應(yīng)商列表,并提供有關(guān)其功能的更新。但因為該行業(yè)的快速發(fā)展,使得這個整合的工作量急速上升。

我希望Gartner或其他一些團隊能夠繼續(xù)全面的對這個領(lǐng)域進行關(guān)注。在2017年,Gartner做了一個相當詳細的報告,名為“未來數(shù)據(jù)和分析的深度分析技術(shù)”。這是一個非常棒的供應(yīng)商總結(jié)報告,雖然有一些我留意的供應(yīng)商并沒有被囊括其中。

報告鏈接:https://www.gartner.com/doc/3773164/augmented-analytics-future-data-analytics

據(jù)我所知,當前沒有全面整合所有完全自動化或基本全自動化功能平臺供應(yīng)商的統(tǒng)計表格。然而,Gartner的報告中,你可以看到,從IBM和SAS這些大企業(yè),到小型的初創(chuàng)公司都在提供類似服務(wù)。

關(guān)于作者:Bill Vorhies是Data Science Central的編輯總監(jiān),自2001年以來一直從事數(shù)據(jù)科學(xué)工作。

相關(guān)報道:https://www.datasciencecentral.com/profiles/blogs/practicing-no-code-data-science?from=singlemessage&isappinstalled=0

標簽: Google 安全 代碼 谷歌 金融 權(quán)限 數(shù)據(jù)分析 推廣 網(wǎng)絡(luò)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:機器學(xué)習(xí)+ICU:為重癥患者提供實時護理

下一篇:中國電信啟動2018年11888卡集采項目:規(guī)模約為6