中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

Python數(shù)據(jù)科學“冷門”庫

2018-11-16    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

 

Python是一種神奇的語言。事實上,它是近幾年世界上發(fā)展最快的編程語言之一,它一次又一次證明了它在開發(fā)工作和數(shù)據(jù)科學立場各行業(yè)的實用性。整個Python系統(tǒng)和庫是對于世界各地的用戶(無論是初學者或者高級)都是一個恰當?shù)倪x擇。其成功和受歡迎的原因之一是它強大的庫,這些庫使其具有動態(tài)性和快速性。

在本文中,我們將看到一些除了常用的像pandas、scikit-learn、 matplotlib之外的數(shù)據(jù)科學任務的Python庫。雖然一看見像pandas,scikit-learn這些庫就讓人腦子浮現(xiàn)出機器學習任務,但了解并學習這個領域的其他python庫總歸是有益的。

1、Wget

從網(wǎng)頁提取數(shù)據(jù)是數(shù)據(jù)科學家的重要任務之一。Wget是一個免費的非交互性的從網(wǎng)上下載文件的實用工具。它支持HTTP、HTTPS和FTP協(xié)議,以及通過HTTP代理檢索。因為它是非交互性的,所以即使用戶沒有登錄,也可以在后臺工作。所以下次你想下載一個網(wǎng)站或頁面的圖片,wget可以幫助你。

安裝:

$ pip install wget

例子:

import wget url = 'http://www.futurecrew.com/skaven/song_files/mp3/razorback.mp3' filename = wget.download(url) 100% [................................................] 3841532 / 3841532
filename 'razorback.mp3'

2、Pendulum

對于那些在python中使用日期時間感到沮喪的,可以使用Pendulum。它是一個python包,可以緩解日期時間操作,是一個python的原生類替代。如果想深入了解請參考該文檔。

安裝:

$ pip install pendulum

例子:

import pendulum dt_toronto = pendulum.datetime(2012, 1, 1, tz='America/Toronto') dt_vancouver = pendulum.datetime(2012, 1, 1, tz='America/Vancouver')
print(dt_vancouver.diff(dt_toronto).in_hours()) 3

3、imbalanced-learn

我看到過大多數(shù)分類算法效果,每個類的樣本數(shù)量幾乎是相同的,如balanced。但是現(xiàn)實生活情況下大部分是不平衡數(shù)據(jù)集,它會影響學習階段和隨后的機器學習算法的預測。幸運的是,創(chuàng)建了這個imbalanced庫來解決這個問題。它兼容了scikit-learn并且是scikit-learn-contrib項目的一部分。當下次遇到不平衡數(shù)據(jù)集,可以嘗試使用這個庫。

安裝:

pip install -U imbalanced-learn #or conda install -c conda-forge imbalanced-learn

例子:

用法和例子請參考文檔。

4、FlashText

NLP任務中清理文本數(shù)據(jù)常常需要在句子中換關鍵字或從句子中提取關鍵字。通常,這些操作可以用正則表達式來完成,但如果搜索方面遇到了數(shù)以千計的數(shù)量,可能會成為麻煩。Python的FlashText模塊,該模塊基于FlashText算法提供了恰當?shù)奶娲惹闆r。FlashText最好的部分是運行時間與搜索詞的數(shù)量無關,你可以在這里了解更多。

安裝:

$ pip install flashtext

例子:

提取關鍵字

from flashtext import KeywordProcessor keyword_processor = KeywordProcessor() #
keyword_processor.add_keyword(, )keyword_processor.add_keyword('Big Apple', 'New York') keyword_processor.add_keyword('Bay Area')keywords_found = keyword_processor.extract_keywords('I love Big Apple and Bay Area.')
keywords_found ['New York', 'Bay Area']

替代關鍵字

keyword_processor.add_keyword('New Delhi', 'NCR region') new_sentence =
keyword_processor.replace_keywords('I love Big Apple and new delhi.') new_sentence 'I love New York and NCR region.'

5、Fuzzywuzzy

這個名字聽起來確實很奇怪,但在處理字符串匹配時,fuzzywuzzy是一個非常有用的庫,可以輕松實現(xiàn)操作,比如字符串比較比率,令牌比率等。它也方便匹配保存在不同數(shù)據(jù)庫的記錄。

安裝:

$ pip install fuzzywuzzy

例子:

from fuzzywuzzy import fuzz from fuzzywuzzy import process # Simple Ratio fuzz.ratio("this is a test", "this is a test!") 97 # Partial Ratio fuzz.partial_ratio("this is a test", "this is a test!") 100

可以在GitHub repo找到更多有趣的例子。

6、PyFlux

時間序列分析是機器學習領域最常見的問題之一。PyFlux是一個在Python中為了時間序列問題而建立的開源庫。該庫有一個良好的現(xiàn)代時間序列模型包括但不限于ARIMA、GARCH和VAR模型。簡而言之,PyFlux針對時間序列建模提供了一種概率方法,值得一試。

安裝:

pip install pyflux

例子:用法例子請參考相關文檔。

7、Ipyvolume

結果可視化是數(shù)據(jù)科學的一個重要方面。能夠可視化結果具有很大的優(yōu)勢。 IPyvolume是一個Python庫,只需最少的配置和精力就可以在Jupyter notebook中可視化3d體積和字形(例如3d散點圖)。但是,它目前處于1.0之前的階段。一個很好的比喻是這樣的:IPyvolume的volshow是3d數(shù)組而matplotlib的imshow是2d數(shù)組。你可以在這里讀更多關于它的內容。

安裝:

Using pip $ pip install ipyvolume Conda/Anaconda $ conda install -c conda-forge ipyvolume

例子:

動畫

 

 

立體渲染

 

 

8、Dash

Dash是一個用于構建Web應用程序的高效Python框架。它寫在Flask,Plotly.js和React.js之上,并將現(xiàn)有的UI元素(如下拉列表,滑塊和圖形)與你的分析Python代碼聯(lián)系起來,而無需使用javascript。Dash非常適合構建數(shù)據(jù)可視化應用程序,然后可以在Web瀏覽器中呈現(xiàn)這些應用程序。用戶指南可在此處訪問。

安裝

pip install dash==0.29.0 # The core dash backend pip install dash-html-components==0.13.2 # HTML components pip install dash-core-components==0.36.0 # Supercharged components pip install dash-table==3.1.3 # Interactive DataTable component (new!)

例子

下面的示例顯示了下拉表的高度交互式圖形。當用戶在下拉列表中選擇一個值時,應用程序代碼會將Google財經(jīng)中的數(shù)據(jù)動態(tài)導出到Pandas DataFram中。

源代碼

 

 

9、Gym

OpenAI的Gym是一個用于開發(fā)和比較強化學習算法的工具包。它與任何數(shù)值計算庫兼容,如TensorFlow或Theano。Gym庫是測試問題的必要集合,也稱為環(huán)境 – 你可以使用它來訓練強化學習算法。這些環(huán)境具有共享接口,允許編寫通用算法。

安裝

pip install gym

例子

以下是運行環(huán)境CartPole-v0中1000個步驟的實例的例子,在每個步驟渲染環(huán)境。

你可以在這里了解更多的環(huán)境。

結論

這些是我選的對于數(shù)據(jù)科學有用的python庫,而不是常見的如numpy,pandas等。如果你知道可以添加到列表中的其他庫,請在下面的評論中提及。別忘了嘗試一下。

文章原標題《python-libraries-for-data-science-other-than-pandas-and-numpy》

作者:Parul Pandey 譯者:虎說八道

文章為簡譯,更為詳細的內容,請查看原文。

標簽: Google 代碼 數(shù)據(jù)庫 搜索

版權申明:本站文章部分自網(wǎng)絡,如有侵權,請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:預測:2018-2026全球大數(shù)據(jù)領域市場、份額、規(guī)模和需求

下一篇:一文盤點數(shù)據(jù)集市和數(shù)據(jù)倉庫的差異(附鏈接)