中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

不善于編程的人的福音:18個免費的探索性數(shù)據(jù)分析工具

2018-08-31    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

每個人都有各自的天賦,發(fā)現(xiàn)它們并開始相信我們自己只是時間的問題。我們都有局限,但是我們應該止步不前嗎?答案是不。

當我開始用R編程的時候,我很糾結。有時候不止一個人曾經這么想過。因為我在這一生中從未編碼過。我的情況就像是一個從來沒學過游泳的人在被強行踹進深海后用盡力氣讓自己不沉下去但是卻喝了好多口咸咸的海水。

現(xiàn)在,當我回過頭看,我笑了。你知道為什么嗎?因為,我本可以選擇不需要會編程就可以使用的數(shù)據(jù)分析工具并避免那些痛苦。

數(shù)據(jù)挖掘是預測建模不可缺少的一部分。除非你知道過去發(fā)生了什么否則你無法做出預測。掌握數(shù)據(jù)挖掘最重要的技能就是好奇心,它是免費的卻不是每個人都擁有的東西。

我寫這篇文章是為了幫助你們了解可用于探索性數(shù)據(jù)分析的各種免費工具。時下,在市場中可以找到非常多的免費且有趣的工具來幫助我們工作。這些工具不需要你較精確仔細地編寫代碼,只需要你點點鼠標就能完成工作。

無需編程即可用來數(shù)據(jù)分析的工具/軟件

1. Excel / Spreadsheet

http://www.openoffice.org/download/

無論你正準備步入數(shù)據(jù)科學領域還是已經在這個領域小有建樹,你會知道過去這么多年以來,excel 一直以來都是數(shù)據(jù)分析領域不可缺少的一部分(最常用的工具之一)。哪怕是在今天,有很大一部分需要數(shù)據(jù)分析的項目都依賴與excel去完成。由于來自于社區(qū),輔導教程,免費資源的幫助越來越多,學習excel已經變得越來越簡單。

excel 基本上支持了最常用的數(shù)據(jù)分析功能:用來概述(總結)數(shù)據(jù)特征,數(shù)據(jù)可視化,對數(shù)據(jù)轉型(去除噪音數(shù)據(jù))從而得到新的數(shù)據(jù)集用來分析等。這些工具足夠強大到讓我們可以重新從多個方面審視數(shù)據(jù)。無論你知道有多少其它的數(shù)據(jù)分析工具,你一定要學會用excel。盡管Microsoft excel這個軟件是付費的,但你可以用其替代品,例如open office, google docs!

2. Trifacta

https://www.trifacta.com/start-wrangling/

Trifacta的Wrangler工具正在挑戰(zhàn)傳統(tǒng)的數(shù)據(jù)清理和操作方法。因為excel在數(shù)據(jù)大小上有限制,但這個工具沒有這樣的局限,您可以安全地用它處理大數(shù)據(jù)集。這個工具有令人難以置信的特性,如圖表推薦、內置算法、分析洞察力,您可以使用這些特性在任何時間內生成報告。這是一種智能工具,專注于更快地解決業(yè)務問題,從而使我們在與數(shù)據(jù)相關的練習中更有效率。

這些開源工具的提供讓我們感到更加自信和支持,世界各地也有優(yōu)秀的人在為使我們的生活更好而努力工作。

3. Rapid Miner

https://rapidminer.com/

這一工具作為高級分析的領導者出現(xiàn)在2016Gartner Magic Quadrant。是的,它不僅僅是一個數(shù)據(jù)清理工具。它在建立機器學習模型方面的具有專業(yè)性。是的,它包含了我們經常使用的所有ML算法。不僅僅是GUI,它還對使用Python&R構建模型的人提供了支持。

它以其非凡的能力繼續(xù)吸引著全世界的人們。最重要的是,它能閃電般的快速水平上提供分析經驗。他們的生產線上有幾個為大數(shù)據(jù)、可視化、模型部署而構建的產品,其中一些產品(企業(yè))包括訂閱費。簡而言之,我們可以說,它對于任何從數(shù)據(jù)加載到模型部署的需要執(zhí)行AI操作的業(yè)務,都是一個完備的工具。

4. Rattle GUI

https://cran.r-project.org/bin/windows/base/

如果你試著使用R語言,但卻找不到訣竅的情況下,Rattle應該是你的第一選擇。這個GUI基于R語言構建,通過在R語言中鍵入安裝包("rattle") ,然后輸入庫(rattle),然后鍵入RTACK(),即可啟動。因此,要使用Rattle,您必須安裝R語言。它也不僅僅是數(shù)據(jù)挖掘工具。Rattle支持各種ML算法,如樹算法、支持向量機算法、Booting算法、神經網絡算法、生存算法線性模型算法等。

現(xiàn)在它已經被廣泛使用。據(jù)克拉恩,rattle每月被安裝10000次。它提供了足夠的選項來探索、轉換和建模數(shù)據(jù),只是很少有人點擊。然而,它在統(tǒng)計分析方面的選擇比SPSS少。但是,SPSS是一個付費工具。

5. Qlikview

http://global.qlik.com/us/landing/go-sm/qlikview/download-qlikview

QlikView是全球商業(yè)情報行業(yè)更受歡迎的工具之一。這個工具所做的就是獲得商業(yè)洞察力并以一種極具吸引力的方式將其呈現(xiàn)出來。有了它較先進的可視化功能,你會驚訝于你在處理數(shù)據(jù)時所得到的控制量。它有一個內置的推薦引擎,可以不時地更新有關較佳可視化的信息。

然而,這不是一個統(tǒng)計軟件。QlikView在探索數(shù)據(jù)、趨勢、洞察力方面是不可思議的,但它無法從統(tǒng)計學上證明任何事情。在這種情況下,您可能需要查看其他軟件。

6. Weka

https://www.analyticsvidhya.com/learning-paths-data-science-business-analytics-business-intelligence-big-data/weka-gui-learn-machine-learning/

使用Weka的一個優(yōu)點是它很容易學習。作為一個機器學習工具,它的界面是足夠直觀的,你可以迅速完成工作。它為數(shù)據(jù)預處理、分類、回歸、聚類、關聯(lián)規(guī)則和可視化提供了選擇。您所想到的建模過程中的大部分步驟都可以使用Weka來完成。它建立在Java之上。

它最初是為瓦卡托大學的研究目的而設計的,但后來被世界各地越來越多的人所接受。然而,這么久了我還沒看到一個能像R和Python一樣熱情的weka交流社區(qū)。下面列出的教程將幫助您更多。

7. KNIME

https://www.knime.org/knime-analytics-platform

與RapidMiner類似,KNIME提供了一個開放源碼的分析數(shù)據(jù)的平臺,以后可以使用其他支持KNIME的產品進行部署。該工具在數(shù)據(jù)融合、可視化和先進的機器學習算法等方面具有豐富的特點。是的,你也可以使用這個工具建立模型。雖然,關于這個工具的討論還不夠多,但是考慮到它的設計技術,我認為它很快就會很快就會引起人們的注意。

此外,在他們的網站上有快速培訓課程,可以讓你現(xiàn)在就開始使用這個工具。

8. Orange

http://orange.biolab.si/

這個工具正如它聽起來很酷那樣,它的目的是產生交互式數(shù)據(jù)可視化和數(shù)據(jù)挖掘任務。YouTube上有足夠的教程來學習這個工具。它有一個廣泛的數(shù)據(jù)挖掘任務庫,包括所有的分類、回歸、聚類方法。同時,在數(shù)據(jù)分析過程中形成的多功能可視化使我們能夠更緊密地理解這些數(shù)據(jù)。

要構建任何模型,您將需要創(chuàng)建流程圖。這很有趣,因為它將幫助我們進一步了解數(shù)據(jù)挖掘任務的確切過程。

9. Tableau Public

https://public.tableau.com/s/

Tableau是一個數(shù)據(jù)可視化軟件。我們可以說,Tableau和QlikView是商業(yè)智能海洋中最強大的鯊魚。優(yōu)勢的比較是永無止境的。這是一個讓我們快速探索數(shù)據(jù)的可視化軟件,每一次觀察都可使用各種可能的圖表。它是一種由自己計算出數(shù)據(jù)類型、可用的較佳方法等的智能算法。

如果您想實時理解數(shù)據(jù),tableau可以完成這個工作。從某種意義上說,tableau賦予了豐富多彩的數(shù)據(jù)生活,讓我們與他人分享我們的工作。

10. Data Wrapper

這是一個閃電般的快速可視化軟件。下一次,當您的團隊中有人被分配到BI工作時,他/她對該做什么毫無頭緒的話,可以考慮選擇這個軟件?梢暬坝删條圖、條形圖、列圖、餅圖、疊加條形圖和地圖組成。因此,這是一個基本的軟件,無法與像Tableau和QlikView這樣的巨人相提并論。此工具啟用瀏覽器,不需要任何軟件安裝。

11. Data Science Studio (DSS)

http://www.dataiku.com/dss/trynow/

它是一個旨在連接技術,業(yè)務和數(shù)據(jù)的強大工具。它可分為兩部分:編碼和非編碼。它對任何旨在發(fā)展,建立,在網絡上部署和擴展模型的組織來說都是一個完整的軟件包。DSS也足夠強大去創(chuàng)建智能數(shù)據(jù)應用程序來解決現(xiàn)實世界的問題。它包含了一些特性,這些特性促進了項目上的團隊集成。在所有特性中,最有趣的部分是,您可以在DSS中再現(xiàn)您的工作,因為系統(tǒng)中的每個操作都是通過集成的GIT存儲庫進行版本化的。

12. OpenRefine

http://openrefine.org/download.html

它開始于谷歌的精益求精,但似乎谷歌因為不清楚的原因而大幅縮減了這個項目。但是,這個工具仍然可用,改名為Open Refine。在眾多開放源碼的工具中,Open Refine專門研究混亂的數(shù)據(jù);為預測建模目的而清理、轉換和塑造數(shù)據(jù)。有趣的是,在在建模過程中,分析師80%的時間都用于數(shù)據(jù)清理。不是那么愉快,但這是事實。使用Open Refine進行改進,分析人員不僅可以節(jié)省時間,還可以將其用于生產工作。

13. Talend

http://openrefine.org/download.html

如今,決策主要是由數(shù)據(jù)驅動的。管理者和專業(yè)人士不再做基于直覺的決定。他們需要一種能迅速幫助他們的工具。Talend可以幫助他們探索數(shù)據(jù)并支持他們做出決策。確切地說,它是一種數(shù)據(jù)協(xié)作工具,能夠清理、轉換和可視化數(shù)據(jù)。

此外,它還提供了一個有趣的自動化特性,您可以在新的數(shù)據(jù)集上保存和重做以前的任務。這個特性是獨特的,在許多工具中還沒有找到。而且,它能自動發(fā)現(xiàn),為用戶提供增強數(shù)據(jù)分析的智能建議。

14. Data Preparator

http://www.datapreparator.com/downloads.html

這個工具建立在Java上,能夠幫助我們進行數(shù)據(jù)的開發(fā)、清理和分析。它包括用于離散化、數(shù)字、縮放、屬性選擇、缺失值、離群值、統(tǒng)計、可視化、平衡、抽樣、行選擇的各種內置包,以及幾個其他任務。它的GUI能夠直觀簡單地理解。一旦你開始使用這個,我相信你不會花很多時間來弄清楚該如何使用。

這個工具的一個獨特的優(yōu)點是,用于分析的數(shù)據(jù)集不會存儲在計算機內存中。這意味著您可以在大型數(shù)據(jù)集上工作,而不會出現(xiàn)任何速度或內存問題。

15. DataCracker

https://www.datacracker.com/Plans

這是一個專門研究調查數(shù)據(jù)的數(shù)據(jù)分析軟件。許多公司確實進行了調查,但他們很難對其進行統(tǒng)計分析。調查數(shù)據(jù)從不清楚。它包含了大量的缺失和不恰當?shù)膬热荨_@個工具減少了我們的痛苦,增強了我們處理凌亂數(shù)據(jù)的經驗。該工具的設計使得它可以從所有主要的互聯(lián)網調查程序(如surveymonkey, survey gizmo等)中加載數(shù)據(jù)。有幾個有助于更好地理解數(shù)據(jù)的交互功能。

16. Data Applied

http://www.data-applied.com/Web/TryNow/Overview.aspx

這個強大的交互工具被設計用來構建、共享、設計數(shù)據(jù)分析報告。在大型數(shù)據(jù)集上創(chuàng)建可視化有時會很麻煩。但是這個工具在使用樹狀地圖可視化大量數(shù)據(jù)方面是很強大的。與上面所有其他工具一樣,它具有數(shù)據(jù)轉換、統(tǒng)計分析、異常檢測等功能?傊,它是一個多用途的數(shù)據(jù)挖掘工具,能夠自動從原始數(shù)據(jù)中提取有價值的知識(信號)。您會驚訝地發(fā)現(xiàn),這種非編程工具在數(shù)據(jù)分析方面不差于R或Python。

17. Tanagra Project

http://eric.univ-lyon2.fr/~ricco/tanagra/en/tanagra.html

因為老式的UI,你可能不喜歡它,但這個免費的數(shù)據(jù)挖掘軟件是設計出來建立機器學習模型的。Tanagra項目是作為學術研究的免費軟件啟動的。作為一個開源項目,它為您提供了足夠的空間來設計自己的算法和貢獻。

除了有監(jiān)督的學習算法外,它還具有聚類、階乘分析、參數(shù)和非參數(shù)統(tǒng)計、關聯(lián)規(guī)則、特征選擇和構造等范例。它的一些局限性包括:無法獲得廣泛的數(shù)據(jù)源、直接訪問數(shù)據(jù)倉庫和數(shù)據(jù)庫、數(shù)據(jù)清理、交互利用等。

18. H2o

http://www.h2o.ai/download/h2o/choose

H2O是當今分析行業(yè)最流行的軟件之一。在短短的幾年里,該組織成功地在世界各地分析界傳播開來。這個開源軟件帶來了照明快速分析的經驗,這是API編程語言的進一步擴展使用。不僅是數(shù)據(jù)分析,而且您可以在任何時候建立先進的機器學習模型;趶妱诺纳鐓^(qū)支持,學習這個工具是不擔心的。

額外獎勵:

除了上面那些很棒的工具之外,我還發(fā)現(xiàn)了一些我認為您可能感興趣的工具。然而,這些工具并不是免費的,但您仍然可以試用它們:

Data Kleenr http://chi2innovations.com/datakleenr/

Data Ladder http://dataladder.com/

Data Cleaner https://datacleaner.org/

WinPure http://www.winpure.com/cleanmatch.html

最后說明

一旦您開始使用這些工具(你選擇的),你就會明白,了解預測建模的編程并不是什么好事。您可以使用這些開源工具完成相同的任務。因此,如果你直到現(xiàn)在還對自己缺乏非編碼感到失望的話,現(xiàn)在是你將你的熱情注入到這些工具上的時候了。

我觀察到這些工具(其中一些)的限制是缺乏社區(qū)支持。除了很少的工具,他們中的幾個沒有一個社區(qū)來尋求幫助和建議。不過,值得一試!

英文原文:https://www.analyticsvidhya.com/blog/2016/09/18-free-exploratory-data-analysis-tools-for-people-who-dont-code-so-well/

標簽: Google 安全 處理大數(shù)據(jù) 大數(shù)據(jù) 代碼 谷歌 互聯(lián)網 數(shù)據(jù)分析 數(shù)據(jù)庫 網絡 轉型

版權申明:本站文章部分自網絡,如有侵權,請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:GPU是個謎?揭秘GPU

下一篇:如何實踐AI深度學習的十大驚艷案例