中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

8種尋找機(jī)器學(xué)習(xí)數(shù)據(jù)集的方法

2019-01-22    來源:raincent

容器云強(qiáng)勢上線!快速搭建集群,上萬Linux鏡像隨意使用

在訓(xùn)練機(jī)器學(xué)習(xí)模型時(shí),找到合適的數(shù)據(jù)集一直是個(gè)棘手的問題。

近日,亞馬遜AWS高級(jí)技術(shù)顧問Will Badr介紹了8種尋找機(jī)器學(xué)習(xí)數(shù)據(jù)集的方法。

通過這些方法,不僅能夠找到大量的實(shí)驗(yàn)數(shù)據(jù)集及相關(guān)的描述和使用示例。在某些情況下,還會(huì)有用于訓(xùn)練數(shù)據(jù)集的算法代碼。

以下,就是他介紹的8種方法:

1、Kaggle數(shù)據(jù)集

 

 

Kaggle的數(shù)據(jù)集中,包含了用于各種任務(wù),不同規(guī)模的真實(shí)數(shù)據(jù)集,而且有許多不同的格式。此外,你還可以在這里找到與每個(gè)數(shù)據(jù)集相關(guān)聯(lián)的交互式筆記本Kernels,這些筆記本能夠在瀏覽器中運(yùn)行。

在這里,每個(gè)數(shù)據(jù)集都是一個(gè)小的交流社區(qū),可以討論數(shù)據(jù),尋找一些公開的代碼,或者在Kernels中創(chuàng)建自己的項(xiàng)目。

有許多數(shù)據(jù)科學(xué)家從不同的角度對(duì)數(shù)據(jù)集進(jìn)行了分析。有時(shí)候,你還可以找到解決特定問題的算法代碼。

傳送門:https://www.kaggle.com/datasets

2、亞馬遜數(shù)據(jù)集

 

 

這里有許多不同領(lǐng)域的數(shù)據(jù)集,比如公共交通、生態(tài)資源、衛(wèi)星圖像等等。

同時(shí)也提供了一個(gè)搜索框,來幫助你尋找數(shù)據(jù)集。伴隨著數(shù)據(jù)集,也有相關(guān)的描述與用法示例。

數(shù)據(jù)集存儲(chǔ)在AWS中,如果你正在使用AWS訓(xùn)練機(jī)器學(xué)習(xí)模型,會(huì)非常方便,數(shù)據(jù)集的傳輸速度非?臁

傳送門:https://registry.opendata.aws/

3、UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫

 

 

這個(gè)數(shù)據(jù)庫里面有100個(gè)數(shù)據(jù)集。來自加州大學(xué)信息與計(jì)算機(jī)科學(xué)學(xué)院。

數(shù)據(jù)集已經(jīng)按照機(jī)器學(xué)習(xí)問題進(jìn)行了分類,你可以在這里找到單變量和多變量時(shí)間序列數(shù)據(jù)集;分類、回歸或推薦系統(tǒng)的數(shù)據(jù)集。

而且,其中的一些數(shù)據(jù)集已經(jīng)清理完畢,拿走就能使用。

傳送門:https://archive.ics.uci.edu/ml/datasets.html

4、谷歌數(shù)據(jù)集搜索引擎

 

 

2018年9月份,谷歌推出了這項(xiàng)服務(wù),可以按名稱搜索數(shù)據(jù)集。目標(biāo)是收集起來成千上萬不同的數(shù)據(jù)集存儲(chǔ)庫。

相關(guān)報(bào)道:

Google數(shù)據(jù)集搜索神器上線,和搜索論文一樣簡單

傳送門:https://toolbox.google.com/datasetsearch

5、微軟數(shù)據(jù)集

 

 

2018年7月,微軟推出“微軟研究開放數(shù)據(jù)”。涵蓋計(jì)算機(jī)科學(xué)、社會(huì)科學(xué)、物理學(xué)、天文學(xué)、生物學(xué)、經(jīng)濟(jì)學(xué)等等多個(gè)學(xué)科領(lǐng)域

數(shù)據(jù)集存儲(chǔ)在云中,用于推動(dòng)全球研究團(tuán)體之間的協(xié)作。收集了一系列已發(fā)表的研究中使用的精確數(shù)據(jù)集。

傳送門:https://msropendata.com/

6、公共數(shù)據(jù)集資源收集

 

 

按照不同的主題對(duì)近600個(gè)數(shù)據(jù)集進(jìn)行了分類,一共涉及29個(gè)主題,比如生物學(xué)、經(jīng)濟(jì)學(xué)、教育學(xué)等等。大多數(shù)數(shù)據(jù)集都是免費(fèi)的,不過在使用前,還是檢查一下許可要求比較好。

傳送門:https://github.com/awesomedata/awesome-public-datasets

7、政府?dāng)?shù)據(jù)集

與政府相關(guān)的數(shù)據(jù)集尋找起來也比較容易,許多國家都會(huì)公開各種數(shù)據(jù),以推進(jìn)政務(wù)的透明化處理。比如:

歐盟開放數(shù)據(jù)集:歐洲政府的數(shù)據(jù)集

https://data.europa.eu/euodp/data/dataset

美國政府?dāng)?shù)據(jù)集:(暫時(shí)無法使用)

https://www.data.gov/

 

 

中國國家統(tǒng)計(jì)局:http://www.stats.gov.cn/

8、計(jì)算機(jī)視覺數(shù)據(jù)

 

 

里面有各種用于計(jì)算機(jī)視覺研究數(shù)據(jù)集,可以通過特定的主題去查找數(shù)據(jù)集,比如語義分割、圖像字幕、圖像生成等等。也可以通過應(yīng)用場景來查找數(shù)據(jù)集,比如自動(dòng)駕駛汽車數(shù)據(jù)集。

傳送門:https://www.visualdata.io/

標(biāo)簽: Google 代碼 谷歌 數(shù)據(jù)庫 搜索 搜索引擎 政務(wù)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:用可視化解構(gòu)BERT,我們從上億參數(shù)中提取出了6種直觀模式

下一篇:啟用下一代數(shù)據(jù)中心,甲骨文擴(kuò)展云業(yè)務(wù)