中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

19個(gè)超贊的數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)工具(附資料)

2018-08-06    來源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬Linux鏡像隨意使用

引言

編程是數(shù)據(jù)科學(xué)的一個(gè)組成部分。事實(shí)上,理解編程邏輯、循環(huán)和函數(shù)的人更有可能成為成功的數(shù)據(jù)科學(xué)家。但那些在學(xué)校里從未學(xué)習(xí)過編程的人怎么辦?

難道他們就沒辦法成為一名數(shù)據(jù)科學(xué)家了嗎?

近年來,隨著數(shù)據(jù)科學(xué)的蓬勃發(fā)展,許多人都有興趣進(jìn)入這個(gè)領(lǐng)域。但對(duì)編程卻一籌莫展。事實(shí)上,在我的第一份工作之前,我也是非編程聯(lián)盟的成員。因此,我明白當(dāng)一個(gè)你從未學(xué)過的東西在任何一步都困擾著你的時(shí)候,有多么可怕。

 

 

好消息是無論你的編程技巧如何,你都有辦法成為數(shù)據(jù)科學(xué)家!有一些工具可以避免編程,并提供用戶友好的GUI(圖形用戶界面),因此任何對(duì)算法知之甚少的人都可以簡(jiǎn)單地使用它們來構(gòu)建高質(zhì)量的機(jī)器學(xué)習(xí)模型。

許多公司(尤其是初創(chuàng)公司)最近推出了GUI驅(qū)動(dòng)的數(shù)據(jù)科學(xué)工具。我盡力在本文中介紹一些重要的工具,并盡可能提供視頻。

注意:所有提供的信息都是從開源信息源收集的。我們只是展示一些事實(shí)而不是觀點(diǎn)。我們決不會(huì)嘗試宣傳或?yàn)槿魏萎a(chǎn)品/服務(wù)打廣告。

以下是本次介紹的工具列表:

1. RapidMiner

鏈接:https://rapidminer.com/

介紹視頻:https://www.youtube.com/embed/ma14K56fNAM?feature=oembed&width=500&height=750

RapidMiner(RM)最初于2006年作為一款名為Rapid-I的開源獨(dú)立軟件被啟動(dòng)。多年來,他們以RapidMiner的名字給它命名,并獲得了約3500萬美元的資金。該工具的舊版本(低于v6)是開源的,但最新版本會(huì)有14天的試用期并在此之后需要許可證。

RM涵蓋了預(yù)測(cè)建模的整個(gè)生命周期,從數(shù)據(jù)準(zhǔn)備到建模,最后驗(yàn)證和部署。GUI基于一個(gè)框圖方法,與Matlab Simulink非常相似。有預(yù)定義的塊用作即插即用設(shè)備。你只需要以正確的方式連接它們,就可以在沒有一行代碼的情況下運(yùn)行各種各樣的算法。最重要的是,它們?cè)试S將自定義的R和Python腳本集成到系統(tǒng)中。

目前的產(chǎn)品包括以下內(nèi)容:

• RapidMiner Studio:一款可用于數(shù)據(jù)準(zhǔn)備、可視化和統(tǒng)計(jì)建模的獨(dú)立軟件。

• RapidMiner服務(wù)器:它是一個(gè)企業(yè)級(jí)環(huán)境,具有中央存儲(chǔ)庫(kù),可以輕松進(jìn)行團(tuán)隊(duì)工作,項(xiàng)目管理和模型部署。

• RapidMiner Radoop:實(shí)現(xiàn)以Hadoop為中心的大數(shù)據(jù)分析功能。

• RapidMiner Cloud:一個(gè)基于云的存儲(chǔ)庫(kù),可以輕松地在各種設(shè)備之間共享信息。

• RM目前已經(jīng)應(yīng)用于汽車、銀行、保險(xiǎn)、生命科學(xué)、制造業(yè)、石油和天然氣、零售、電信和公用事業(yè)等各個(gè)行業(yè)。

2. DataRobot

鏈接:https://www.datarobot.com/

介紹視頻:https://youtu.be/wZCNKDX1q4o

DataRobot(DR)是一款高度自動(dòng)化的機(jī)器學(xué)習(xí)平臺(tái),由全球最好的Kagglers構(gòu)建,包括Jeremy Achin,Thoman DeGodoy和Owen Zhang。該平臺(tái)聲稱已經(jīng)消除了對(duì)數(shù)據(jù)科學(xué)家的需求。這從他們網(wǎng)站的一句話中可以明顯看出 - “數(shù)據(jù)科學(xué)需要數(shù)學(xué)和統(tǒng)計(jì)資質(zhì)、編程技能和商業(yè)知識(shí)。借助DataRobot,你只需提供商業(yè)知識(shí)和數(shù)據(jù),而我們的尖端自動(dòng)化負(fù)責(zé)其余部分。”

DR宣稱具有以下優(yōu)點(diǎn):

• 模型優(yōu)化:

平臺(tái)通過采用文本挖掘、變量類型檢測(cè)、編碼、插補(bǔ)、縮放、轉(zhuǎn)換等自動(dòng)檢測(cè)最佳數(shù)據(jù)預(yù)處理和特征工程。
根據(jù)誤差度量和驗(yàn)證集合分?jǐn)?shù)自動(dòng)選擇超參數(shù)。

• 并行處理:

計(jì)算被分給數(shù)千個(gè)多核服務(wù)器。
使用分布式算法來擴(kuò)展到大型數(shù)據(jù)集。

• 部署:

只需點(diǎn)擊幾下即可輕松部署設(shè)施(無需編寫任何新代碼)。

• 對(duì)于軟件工程師:

Python SDK和API可用于將模型快速集成到工具和軟件中。

3. BigML

鏈接:https://bigml.com/

介紹視頻:https://youtu.be/JVM8qIn3xPQ

BigML提供了一個(gè)良好的圖形用戶界面,可以讓用戶通過以下6個(gè)步驟掌握:

• 來源:使用各種信息來源

• 數(shù)據(jù)集:使用定義的源創(chuàng)建數(shù)據(jù)集

• 模型:制作預(yù)測(cè)模型

• 預(yù)測(cè):基于模型生成預(yù)測(cè)

• 合成:創(chuàng)建各種模型的合成

• 評(píng)估:針對(duì)驗(yàn)證集的非常模型

這些過程顯然會(huì)以不同的順序迭代。BigML平臺(tái)提供了很好的結(jié)果可視化,并具有求解分類、回歸、聚類、異常檢測(cè)和關(guān)聯(lián)發(fā)現(xiàn)問題的算法。他們提供按月、季度和年度訂閱捆綁在一起的幾個(gè)軟件包。他們甚至提供免費(fèi)套餐,但上傳數(shù)據(jù)集的大小限制為16MB。

您可以通過他們的YouTube頻道了解他們的界面如何運(yùn)作。

4. Google Cloud AutoML

鏈接:https://cloud.google.com/automl/

介紹視頻:https://youtu.be/GbLQE2C181U

Cloud AutoML是Google機(jī)器學(xué)習(xí)組件的一部分,它允許有限ML專業(yè)知識(shí)的人員來構(gòu)建高質(zhì)量模型。作為Cloud AutoML產(chǎn)品組合的一部分,第一款產(chǎn)品是Cloud AutoMLVision。該服務(wù)使得訓(xùn)練圖像識(shí)別模型變得更加簡(jiǎn)單。它具有拖放界面,可以讓您上傳圖像,訓(xùn)練模型,然后直接在Google Cloud上部署這些模型。

Cloud AutoML Vision基于Google的遷移學(xué)習(xí)和神經(jīng)架構(gòu)搜索等技術(shù)。這個(gè)工具已經(jīng)被很多組織所使用?纯催@篇文章,看看AutoML在兩個(gè)驚人的現(xiàn)實(shí)生活例子的表現(xiàn),以及它如何產(chǎn)生比任何其他工具更好的結(jié)果。

5. Paxata

鏈接:https://www.paxata.com/

介紹視頻:https://youtu.be/bxxsCLmXmms

Paxata是少數(shù)幾家專注于數(shù)據(jù)清洗和預(yù)處理的組織之一,而不是機(jī)器學(xué)習(xí)或統(tǒng)計(jì)建模部分。這是一個(gè)易于使用的MS Excel類應(yīng)用程序。它還提供了可視化的指導(dǎo),可以輕松地將數(shù)據(jù)匯集在一起,查找并修復(fù)數(shù)據(jù)中混雜的噪音或缺失,以及在團(tuán)隊(duì)之間共享和重復(fù)使用數(shù)據(jù)項(xiàng)目。與本文中提到的其他工具一樣,Paxata取消了編碼或腳本,從而克服了處理數(shù)據(jù)所涉及的技術(shù)障礙。

Paxata平臺(tái)遵循以下流程:

• 添加日期:使用廣泛的來源獲取數(shù)據(jù)。

• 探查:使用強(qiáng)大的視覺效果進(jìn)行數(shù)據(jù)探查,使用戶可以輕松識(shí)別數(shù)據(jù)中的空白。

• 清理+更改:使用插補(bǔ)等步驟執(zhí)行數(shù)據(jù)清理,使用NLP對(duì)相似值進(jìn)行規(guī)范化,檢測(cè)重復(fù)值。

• 形狀:制作數(shù)據(jù)的樞紐,執(zhí)行分組和聚合。

• 分享+管理:允許在強(qiáng)有力的身份驗(yàn)證和授權(quán)的情況下進(jìn)行分享和協(xié)作。

• 結(jié)合:專有技術(shù)稱為SmartFusion允許通過1次點(diǎn)擊結(jié)合數(shù)據(jù)幀,因?yàn)樗梢宰詣?dòng)檢測(cè)到最佳組合;多個(gè)數(shù)據(jù)集可以組合成一個(gè)AnswerSet。

• 商務(wù)智能工具:可以在常用的商務(wù)智能工具中輕松實(shí)現(xiàn)最終答案集的可視化;還可以輕松實(shí)現(xiàn)數(shù)據(jù)預(yù)處理和可視化之間的迭代。

Praxata已經(jīng)涉足金融服務(wù)、消費(fèi)品和網(wǎng)絡(luò)領(lǐng)域。如果您的工作需要大量數(shù)據(jù)清洗,它可能是一個(gè)很好的工具。

6. Trifacta

鏈接:https://www.trifacta.com/

介紹視頻:https://youtu.be/L-jWAsJNmAU

Trifacta是另一家重點(diǎn)關(guān)注數(shù)據(jù)預(yù)處理的創(chuàng)業(yè)公司。它有3種產(chǎn)品:

• Wrangler:一款免費(fèi)的獨(dú)立軟件。允許處理多達(dá)100MB的數(shù)據(jù)。

• WranglerPro:上述的升級(jí)版本。它允許單用戶和多用戶并且數(shù)據(jù)量限制為40GB。

• WranglerEnterprise:Trifacta的終極產(chǎn)品。它對(duì)處理的數(shù)據(jù)量沒有任何限制,并允許無限制的用戶。非常適合大型組織。

Trifacta提供了一個(gè)非常直觀的GUI來執(zhí)行數(shù)據(jù)清洗。它將數(shù)據(jù)作為輸入并按列提供各種統(tǒng)計(jì)數(shù)據(jù)的摘要。另外,對(duì)于每一列,它都會(huì)自動(dòng)推薦一些可以通過單擊進(jìn)行選擇的轉(zhuǎn)換?梢允褂靡恍╊A(yù)先定義的函數(shù)對(duì)數(shù)據(jù)執(zhí)行各種轉(zhuǎn)換,這些函數(shù)可以在界面中輕松調(diào)用。

Trifacta平臺(tái)使用以下數(shù)據(jù)準(zhǔn)備步驟:

• 發(fā)現(xiàn):首先看看數(shù)據(jù)和分布,以便快速了解您的具體情況。

• 結(jié)構(gòu):為數(shù)據(jù)分配適當(dāng)?shù)男螒B(tài)和變量類型并解決異常。

• 清理:此步驟包括插補(bǔ)、文本標(biāo)準(zhǔn)化等過程。這是使數(shù)據(jù)模型準(zhǔn)備就緒所必需的一步。

• 充實(shí):此步驟有助于提高分析的質(zhì)量,可以通過添加更多數(shù)據(jù)源或?qū)ΜF(xiàn)有數(shù)據(jù)執(zhí)行一些功能工程來完成。

• 驗(yàn)證:此步驟對(duì)數(shù)據(jù)執(zhí)行最終檢測(cè)。

• 發(fā)布:最后將數(shù)據(jù)導(dǎo)出以供進(jìn)一步使用。

Trifacta主要應(yīng)用于金融、生命科學(xué)和電信行業(yè)。

7. MLBase

鏈接:http://mlbase.org/

介紹視頻:https://youtu.be/W-WPclNo8v0

MLBase是加州大學(xué)伯克利分校的AMP(算法機(jī)器人)實(shí)驗(yàn)室開發(fā)的一個(gè)開源項(xiàng)目。背后的核心思想是為機(jī)器學(xué)習(xí)應(yīng)用于大規(guī)模問題提供一個(gè)簡(jiǎn)單的解決方案。

它有3種產(chǎn)品:

• MLlib:它是Apache Spark中的核心分布式ML庫(kù)。它最初是作為MLBase項(xiàng)目的一部分開發(fā)的,但現(xiàn)在Spark社區(qū)也支持它。

• MLI:用于特征提取和算法開發(fā)的實(shí)驗(yàn)性API,它引入了高級(jí)ML編程抽象。

• ML優(yōu)化器:該層旨在自動(dòng)執(zhí)行ML管道構(gòu)建任務(wù)。優(yōu)化器通過包含在MLI和MLlib中的特征提取器和ML算法來解決搜索問題。

8. Auto-WEKA

鏈接:

http://www.cs.ubc.ca/labs/beta/Projects/autoweka/

介紹視頻:

https://youtu.be/LcHw2ph6bss?list=PLm4W7_iX_v4NqPUjceOGd-OKNVO4c_cPD

Auto-WEKA是一個(gè)用Java編寫的數(shù)據(jù)挖掘軟件,由新西蘭懷卡托大學(xué)的機(jī)器學(xué)習(xí)小組開發(fā)。這是一個(gè)基于GUI的工具,對(duì)數(shù)據(jù)科學(xué)初學(xué)者非常有用。它的最大優(yōu)點(diǎn)是它是開源的,開發(fā)人員提供了教程和論文來幫助你入門。你可以在AV的文章中了解更多相關(guān)信息。目前它主要應(yīng)用于教育和學(xué)術(shù)目的。

9. Driverless AI

鏈接:https://www.h2o.ai/driverless-ai/

介紹視頻:https://youtu.be/KkvWX3FD7yI

Driverless AI是支持自動(dòng)機(jī)器學(xué)習(xí)的h2o.ai企業(yè)的神奇平臺(tái)。這個(gè)鏈接上可以使用1月試用版的docker映像。您只需使用簡(jiǎn)單的下拉列表選擇文件來訓(xùn)練,測(cè)試并指定您想要跟蹤模型性能的指標(biāo)。坐下來,看著界面直觀的平臺(tái)在你的數(shù)據(jù)集上訓(xùn)練出優(yōu)秀的結(jié)果,并能與一個(gè)經(jīng)驗(yàn)豐富的數(shù)據(jù)科學(xué)家能夠提出的好解決方案相比。

這些是Driverless AI 的業(yè)務(wù)功能:

它支持XGBOOST,GLM和K-Means等多GPU支持,即使對(duì)于大型復(fù)雜數(shù)據(jù)集也能提供出色的訓(xùn)練速度。

自動(dòng)功能工程,調(diào)整和綜合各種模型以產(chǎn)生高度準(zhǔn)確的預(yù)測(cè)。

在訓(xùn)練過程中,有解釋模型以及用于實(shí)時(shí)特征重要性排序的面板的強(qiáng)大功能。

10. Microsoft Azure ML Studio

鏈接:https://studio.azureml.net/

介紹視頻:https://youtu.be/tW1JV6bHXFA

當(dāng)這個(gè)領(lǐng)域有這么多大牌玩家時(shí),微軟怎么會(huì)落后?Azure ML Studio是一個(gè)簡(jiǎn)單卻強(qiáng)大的基于瀏覽器的ML平臺(tái)。它有一個(gè)可視化的拖放環(huán)境,不需要編程。他們已經(jīng)為新手發(fā)布了全面的教程和示例實(shí)驗(yàn),可以幫助他們快速掌握該工具。

它采用簡(jiǎn)單的五個(gè)步驟:

• 導(dǎo)入數(shù)據(jù)集。

• 如有必要,執(zhí)行數(shù)據(jù)清洗和其他預(yù)處理步驟。

• 將數(shù)據(jù)分解為訓(xùn)練和測(cè)試集。

• 應(yīng)用內(nèi)置ML算法來訓(xùn)練您的模型。

• 評(píng)價(jià)你的模型,并得到你的預(yù)測(cè)!

11. MLJar

鏈接:https://mljar.com/

介紹視頻:https://youtu.be/ijmw94h4qCk

MLJar是一個(gè)基于瀏覽器的平臺(tái),用于快速構(gòu)建和部署機(jī)器學(xué)習(xí)模型。它有一個(gè)直觀的界面,并允許您并行地訓(xùn)練模型。它具有內(nèi)置的超參數(shù)搜索功能,可以更輕松地部署模型。MLJar提供與NVIDIA的CUDA,python,TensorFlow等的集成。

你只需要執(zhí)行三個(gè)步驟來建立一個(gè)不錯(cuò)的模型:

• 上傳你的數(shù)據(jù)集。

• 訓(xùn)練和調(diào)整許多機(jī)器學(xué)習(xí)算法并選擇最佳的算法。

• 使用最佳模型進(jìn)行預(yù)測(cè)并分享您的結(jié)果。

目前該工具用于訂閱版本。它有一個(gè)免費(fèi)的版本并且有0.25GB的數(shù)據(jù)集限制。這絕對(duì)值得一試。

12. Amazon Lex

鏈接:https://aws.amazon.com/cn/lex/

介紹視頻:https://youtu.be/d3LYlNqfuzI

Amazon Lex提供了一個(gè)易于使用的控制臺(tái),可在幾分鐘內(nèi)構(gòu)建自己的聊天機(jī)器人。您可以使用Lex在應(yīng)用程序或網(wǎng)站中構(gòu)建對(duì)話界面。所有你需要做的是提供一些短語(yǔ),Amazon Lex完成其余步驟!它構(gòu)建了一個(gè)完整的自然語(yǔ)言模型,使用該模型,客戶可以使用語(yǔ)音和文本與應(yīng)用程序進(jìn)行交互。

它還內(nèi)置了與亞馬遜網(wǎng)絡(luò)服務(wù)(AWS)平臺(tái)的集成。Amazon Lex是一項(xiàng)完全托管服務(wù),因此您的用戶參與度不斷增加,您無需擔(dān)心配置硬件和管理基礎(chǔ)設(shè)施以提高您的機(jī)器人體驗(yàn)。

13. IBM Wastson Studio

鏈接:https://www.ibm.com/cloud/watson-studio

介紹視頻:https://youtu.be/1_W6Y3c2Aeg

本文怎么能少了IBM Watson?它是世界上最知名的品牌之一。IBM Watson Studio為構(gòu)建和部署學(xué)習(xí)機(jī)和深度學(xué)習(xí)模型提供了一個(gè)美麗的平臺(tái)。您可以交互式地發(fā)現(xiàn)、清理和轉(zhuǎn)換您的數(shù)據(jù),使用Jupyter筆記本電腦和RStudio等熟悉的開源工具,訪問最流行的庫(kù),訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)以及大量其他事物。

對(duì)于剛進(jìn)入這個(gè)領(lǐng)域的人來說,他們提供了一系列視頻以簡(jiǎn)化入門階段。您可以選擇免費(fèi)試用,并親自查看這款超棒的工具。以上視頻將指導(dǎo)您如何在Watson Studio中創(chuàng)建項(xiàng)目。

14. Automatic Statistician

鏈接:https://www.automaticstatistician.com/index/

 

 

Automatic Statistician本身不是一個(gè)產(chǎn)品,而是一個(gè)創(chuàng)建數(shù)據(jù)探索和分析工具的研究機(jī)構(gòu)。它可以采用各種數(shù)據(jù),并以其自然語(yǔ)言處理為核心,生成詳細(xì)的報(bào)告。它由在劍橋和麻省理工學(xué)院工作的研究人員開發(fā),并以75萬美元的價(jià)格贏得了Google的焦點(diǎn)研究獎(jiǎng)。

它目前仍處于積極發(fā)展階段,但在不久的將來應(yīng)該密切關(guān)注。您可以在這里查看一些關(guān)于最終報(bào)告的示例。

更多工具

• KNIME (https://www.knime.com/)- 這個(gè)工具非常適合訓(xùn)練機(jī)器學(xué)習(xí)模型。最初需要習(xí)慣,但是一開始使用就會(huì)覺得GUI很棒。它產(chǎn)生的結(jié)果與大多數(shù)工具相同,也是免費(fèi)的。

• FeatureLab (http://www.featurelab.co/)- 它允許使用GUI進(jìn)行簡(jiǎn)單的預(yù)測(cè)建模和部署。最好的賣點(diǎn)之一是自動(dòng)進(jìn)行特征工程。

• MarketSwitch (http://www.experian.com/decision-analytics/marketswitch-optimization.html)- 此工具更側(cè)重于優(yōu)化而非預(yù)測(cè)分析。

• Logical Glue(http://www.logicalglue.com/) - 從原始數(shù)據(jù)到模型部署的另一個(gè)基于GUI的機(jī)器學(xué)習(xí)平臺(tái)。

• Pure Predictive (http://www.purepredictive.com/)- 該工具使用有專利的人工智能系統(tǒng),該系統(tǒng)可以避免部分?jǐn)?shù)據(jù)準(zhǔn)備和模型調(diào)整;它使用AI將1000個(gè)模型組合成他們所謂的“超級(jí)模型”。

如果你是第一次聽到這些名字,你不是一個(gè)人!隨著越來越多的數(shù)據(jù)被收集,自動(dòng)化機(jī)器學(xué)習(xí)的市場(chǎng)正在擴(kuò)大。他們?cè)谖磥韼啄陼?huì)被淹沒在市場(chǎng)中嗎?時(shí)間會(huì)證明一切。但是,這些優(yōu)秀的工具可以幫助那些希望開始學(xué)習(xí)機(jī)器學(xué)習(xí),或者正在尋找替代方案來添加到他們現(xiàn)有目錄的組織。

結(jié)束語(yǔ)

在本文中,我們已經(jīng)討論了幾項(xiàng)旨在自動(dòng)化解決數(shù)據(jù)科學(xué)問題的舉措。其中一些處于初期研究階段,一些是開源的,另一些已經(jīng)在該行業(yè)中應(yīng)用并有數(shù)百萬資金。所有這些都對(duì)數(shù)據(jù)科學(xué)家的工作構(gòu)成了潛在威脅,預(yù)計(jì)這一工作在不久的將來會(huì)大幅增長(zhǎng)。這些工具最適合那些不熟悉編程和編碼的人員。

標(biāo)簽: Google 大數(shù)據(jù) 大數(shù)據(jù)分析 代碼 服務(wù)器 腳本 金融 數(shù)據(jù)分析 搜索 網(wǎng)絡(luò)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:尷尬了,數(shù)據(jù)故事講不好,模型再酷炫都沒用

下一篇:教育部:建設(shè)100+AI特色專業(yè), 500萬AI人才缺口要補(bǔ)上!