中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

TOP 3大開源Python數(shù)據(jù)分析工具!

2018-08-10    來源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬Linux鏡像隨意使用
在大數(shù)據(jù)庫領(lǐng)域,Python是最常被使用的編程語言,因此了解與其相關(guān)的數(shù)據(jù)分析工具是很有必要的。如果你正在使用virtualenv、pyenv或其他變體在自己的環(huán)境中運(yùn)行Python,那么,可以嘗試本文推薦的三大開源工具。
 

本文選取的示例數(shù)據(jù)是最近幾天從某網(wǎng)站獲取的實(shí)際生產(chǎn)日志數(shù)據(jù),從技術(shù)層面來看,這些數(shù)據(jù)并不能算作是大數(shù)據(jù),因?yàn)樗拇笮≈挥写蠹s2Mb,但就演示來說已經(jīng)足夠了。

如果你想獲取這些示例數(shù)據(jù),可以使用git從作者的公共GitHub存儲(chǔ)庫中下載:admintome / access-log-data

 

 

數(shù)據(jù)是一個(gè)簡(jiǎn)單的CSV文件,因此每行代表一個(gè)單獨(dú)的日志,字段用逗號(hào)分隔:

 

 

以下是日志行架構(gòu):

 

 

由于對(duì)數(shù)據(jù)可執(zhí)行的操作的復(fù)雜性不確定,因此本文重點(diǎn)選取加載數(shù)據(jù)和獲取數(shù)據(jù)樣本兩個(gè)操作來講解三個(gè)工具。

1、Python Pandas

我們討論的第一個(gè)工具是Python Pandas。正如它的網(wǎng)站所述,Pandas是一個(gè)開源的Python數(shù)據(jù)分析庫。它最初由AQR Capital Management于2008年4月開發(fā),并于2009年底開源,目前由專注于Python數(shù)據(jù)包開發(fā)的PyData開發(fā)團(tuán)隊(duì)繼續(xù)開發(fā)和維護(hù),屬于PyData項(xiàng)目的一部分。Pandas最初被作為金融數(shù)據(jù)分析工具而開發(fā)出來,因此,pandas為時(shí)間序列分析提供了很好的支持。

首先,啟動(dòng)IPython并對(duì)示例數(shù)據(jù)進(jìn)行一些操作。(因?yàn)閜andas是python的第三方庫所以使用前需要安裝一下,直接使用pip install pandas 就會(huì)自動(dòng)安裝pandas以及相關(guān)組件)

 

 

 

 

大約一秒后,我們會(huì)收到如下回復(fù):

 

 

如上所見,我們有大約7000行數(shù)據(jù),它從中找到了四個(gè)與上述模式匹配的列。

Pandas自動(dòng)創(chuàng)建了一個(gè)表示CSV文件的DataFrame對(duì)象,Pandas中的DataFrame數(shù)據(jù)既可以存儲(chǔ)在SQL數(shù)據(jù)庫中,也可以直接存儲(chǔ)在CSV文件中。接下來我們使用head()函數(shù)導(dǎo)入數(shù)據(jù)樣本。

 

 

使用Python Pandas可以做很多事情, 數(shù)據(jù)科學(xué)家通常將Python Pandas與IPython一起使用,以交互方式分析大量數(shù)據(jù)集,并從該數(shù)據(jù)中獲取有意義的商業(yè)智能。

2、PySpark

我們討論的第二個(gè)工具是PySpark,該工具來自Apache Spark項(xiàng)目的大數(shù)據(jù)分析庫。

PySpark提供了許多用于在Python中分析大數(shù)據(jù)的功能,它自帶shell,用戶可以從命令行運(yùn)行。

 

 

這會(huì)加載pyspark shell:

 

 

當(dāng)你啟動(dòng)shell時(shí),你會(huì)得到一個(gè)Web GUI查看你的工作狀態(tài),只需瀏覽到http:// localhost:4040即可獲得PySpark Web GUI。

 

 

讓我們使用PySpark Shell加載示例數(shù)據(jù):

 

 

PySpark提供了已創(chuàng)建的DataFrame示例:

 

 

我們?cè)俅慰吹紻ataFrame中有四列與我們的模式匹配,DataFrame此處可以被視為數(shù)據(jù)庫表或Excel電子表格。

3、Python SciKit-Learn

任何關(guān)于大數(shù)據(jù)的討論都會(huì)引發(fā)關(guān)于機(jī)器學(xué)習(xí)的討論,幸運(yùn)的是,Python開發(fā)人員有很多選擇來使用機(jī)器學(xué)習(xí)算法。

在沒有詳細(xì)介紹機(jī)器學(xué)習(xí)的情況下,我們需要獲得一些執(zhí)行機(jī)器學(xué)習(xí)的數(shù)據(jù),我在本文中提供的示例數(shù)據(jù)不能正常工作,因?yàn)樗皇菙?shù)字類型的數(shù)據(jù)。我們需要操縱數(shù)據(jù)并將其呈現(xiàn)為數(shù)字格式,這超出了本文的范圍,例如,我們可以按時(shí)間映射日志以獲得具有兩列的DataFrame:一分鐘內(nèi)的日志數(shù)和當(dāng)前時(shí)間:

 

 

通過這種形式的數(shù)據(jù),我們可以執(zhí)行機(jī)器學(xué)習(xí)算法來預(yù)測(cè)未來可能獲得的訪客數(shù)量,SciKit-Learn附帶了一些樣本數(shù)據(jù)集,我們可以加載一些示例數(shù)據(jù),來看一下具體如何運(yùn)作。

 

 

這將加載兩個(gè)用于機(jī)器學(xué)習(xí)分類的算法,用于對(duì)數(shù)據(jù)進(jìn)行分類。

結(jié)論

在大數(shù)據(jù)領(lǐng)域,Python、R以及Scala是主要的參與者,開源社區(qū)中有不少針對(duì)這三者的工具,國(guó)內(nèi)互聯(lián)網(wǎng)企業(yè)一向很喜歡基于開源工具自研,選擇之前不妨做好功課,抽取使用人數(shù)較多且應(yīng)用場(chǎng)景最接近實(shí)際需求的方案。

標(biāo)簽: 大數(shù)據(jù) 大數(shù)據(jù)分析 互聯(lián)網(wǎng) 互聯(lián)網(wǎng)企業(yè) 金融 數(shù)據(jù)分析 數(shù)據(jù)庫

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:一文讀懂深度學(xué)習(xí)模型近年來重要進(jìn)展(附梳理圖)

下一篇:通過機(jī)器學(xué)習(xí)和時(shí)間序列數(shù)據(jù)理解軟件系統(tǒng)行為