中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

24個(gè)終極數(shù)據(jù)科學(xué)項(xiàng)目(免費(fèi)獲取資源)

2018-06-23    來源:

容器云強(qiáng)勢上線!快速搭建集群,上萬Linux鏡像隨意使用
數(shù)據(jù)科學(xué)項(xiàng)目為你在這個(gè)領(lǐng)域的深入研究提供了一個(gè)基礎(chǔ)。通過實(shí)際應(yīng)用,你不僅可以學(xué)習(xí)數(shù)據(jù)科學(xué),也能夠?qū)懺诤啔v中提升你的資歷。在這上邊花費(fèi)的時(shí)間越多,你學(xué)到的知識(shí)就越多。

本文精選了22個(gè)數(shù)據(jù)科學(xué)項(xiàng)目,并囊括了各個(gè)領(lǐng)域和各種不同大小的數(shù)據(jù)集。另外,所有的數(shù)據(jù)集都是開源、可免費(fèi)獲取的。

 

 

初級(jí)——這部分的數(shù)據(jù)集很容易處理,使用基礎(chǔ)的回歸/分類算法就可以處理這些數(shù)據(jù)集。并且,這些數(shù)據(jù)集有足夠的教程供你學(xué)習(xí)。

中級(jí)——略微有點(diǎn)難度。包含了需要使用有點(diǎn)難度的模式識(shí)別技能來處理的大中型數(shù)據(jù)集。另外,特征工程在這里可以發(fā)揮作用了。

高級(jí)——包括神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)、推薦系統(tǒng)及高維數(shù)據(jù)等。

初級(jí)

1.Iris Data數(shù)據(jù)集(花的類別識(shí)別)

Iris Data Set可能是模式識(shí)別領(lǐng)域?qū)W習(xí)分類技術(shù)最基本入門級(jí)的數(shù)據(jù)集,適合初學(xué)者。該數(shù)據(jù)集里面包含了150行4列個(gè)數(shù)據(jù)。

問題: 根據(jù)已有特征預(yù)測花的類別。

資源:

數(shù)據(jù)集:https://archive.ics.uci.edu/ml/datasets/Iris?spm=a2c4e.11153940.blogcont603256.5.333b1d6f05ZggC

教程:http://www.slideshare.net/thoi_gian/iris-data-analysis-with-r?spm=a2c4e.11153940.blogcont603256.6.333b1d6f05ZggC

2.Loan Prediction 數(shù)據(jù)集(貸款預(yù)測)

它是保險(xiǎn)領(lǐng)域最常引用的一個(gè)數(shù)據(jù)集。利用這個(gè)數(shù)據(jù)集,你可以充分體驗(yàn)到如何處理保險(xiǎn)公司的數(shù)據(jù),包括會(huì)遇到哪些挑戰(zhàn)、需要什么策略、哪些變量會(huì)影響結(jié)果等。這是一個(gè)分類問題,數(shù)據(jù)集包含615行13列個(gè)數(shù)據(jù)。

問題: 預(yù)測一個(gè)貸款是否能夠被批準(zhǔn)。

資源:

數(shù)據(jù)集:https://datahack.analyticsvidhya.com/contest/practice-problem-loan-prediction-iii/?spm=a2c4e.11153940.blogcont603256.7.333b1d6fYOsiOK

教程:https://www.analyticsvidhya.com/blog/2016/01/complete-tutorial-learn-data-science-python-scratch-2/?spm=a2c4e.11153940.blogcont603256.8.333b1d6fYOsiOK

3. Bigmart Sales 數(shù)據(jù)集(零售業(yè)銷售)

零售業(yè)是另一個(gè)充分利用數(shù)據(jù)分析優(yōu)化商業(yè)流程的行業(yè)。我們可以利用數(shù)據(jù)科學(xué)對(duì)商品的放置、庫存管理、定制供應(yīng)、商品捆綁等任務(wù)進(jìn)行巧妙的處理。該數(shù)據(jù)集包含了商店的交易數(shù)據(jù),是一個(gè)回歸問題,共包含8523行12列個(gè)數(shù)據(jù)。

問題:預(yù)測銷量。

資源:

數(shù)據(jù)集:https://datahack.analyticsvidhya.com/contest/practice-problem-big-mart-sales-iii/?spm=a2c4e.11153940.blogcont603256.9.333b1d6fYOsiOK

教程: https://www.analyticsvidhya.com/blog/2016/02/bigmart-sales-solution-top-20/?spm=a2c4e.11153940.blogcont603256.10.333b1d6fYOsiOK

4. Boston Housing 數(shù)據(jù)集(波士頓房屋)

這是另一個(gè)模式識(shí)別領(lǐng)域較為常見的數(shù)據(jù)集,來自于波士頓的房地產(chǎn)業(yè),是一個(gè)回歸問題,數(shù)據(jù)集有506行14列個(gè)數(shù)據(jù)。這個(gè)數(shù)據(jù)集并不大,你可以嘗試使用任何技術(shù),而不用擔(dān)心筆記本的內(nèi)存不夠。

問題:預(yù)測業(yè)主擁有房屋數(shù)量的中間值。

資源:

數(shù)據(jù)集:https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html?spm=a2c4e.11153940.blogcont603256.11.333b1d6fYOsiOK

教程:https://www.analyticsvidhya.com/blog/2015/11/started-machine-learning-ms-excel-xl-miner/?spm=a2c4e.11153940.blogcont603256.12.333b1d6fYOsiOK

5. Time Series Analysis數(shù)據(jù)集(時(shí)間序列分析)

時(shí)間序列是數(shù)據(jù)科學(xué)中最常用的技術(shù)之一,具有廣泛的應(yīng)用:預(yù)測天氣預(yù)報(bào)、預(yù)測銷售額、分析逐年趨勢等。該數(shù)據(jù)集特定于時(shí)間序列,這里面臨的挑戰(zhàn)是預(yù)測交通方式。

問題:預(yù)測新的交通工具的交通。

資源:

數(shù)據(jù)集: https://datahack.analyticsvidhya.com/contest/practice-problem-time-series-2/?spm=a2c4e.11153940.blogcont603256.13.333b1d6fYOsiOK

教程:https://trainings.analyticsvidhya.com/courses/course-v1:AnalyticsVidhya+TS_101+TS_term1/about?spm=a2c4e.11153940.blogcont603256.14.333b1d6fYOsiOK

6. Wine Quality數(shù)據(jù)集(酒質(zhì)量)

這是初學(xué)者最常用的數(shù)據(jù)集之一,分成了2個(gè)數(shù)據(jù)集。在這個(gè)數(shù)據(jù)集上可以同時(shí)執(zhí)行回歸和分類任務(wù)——異常值檢測、特征選擇和不平衡數(shù)據(jù)。該數(shù)據(jù)集有4898行和12列個(gè)數(shù)據(jù)。

問題:預(yù)測酒的質(zhì)量。

資源:

數(shù)據(jù)集: https://archive.ics.uci.edu/ml/datasets/Wine+Quality?spm=a2c4e.11153940.blogcont603256.15.333b1d6fYOsiOK

教程:https://archive.ics.uci.edu/ml/datasets/Wine+Quality?spm=a2c4e.11153940.blogcont603256.15.333b1d6fYOsiOK

7. Turkiye Student Evaluation 數(shù)據(jù)集(學(xué)生課程評(píng)估)

該數(shù)據(jù)集基于學(xué)生填寫不同課程的評(píng)估表,擁有不同的屬性,包括出勤率、難度、分?jǐn)?shù)等,是一個(gè)無監(jiān)督學(xué)習(xí)問題。該數(shù)據(jù)集有5820行33列個(gè)數(shù)據(jù)。

問題:使用分類和聚類解決問題。

資源:

數(shù)據(jù)集 : https://archive.ics.uci.edu/ml/datasets/Wine+Qualityhttps:/archive.ics.uci.edu/ml/datasets/Turkiye+Student+Evaluation?spm=a2c4e.11153940.blogcont603256.17.333b1d6fYOsiOK

教程: https://sanghosuh.github.io/research/LA_EdMining_SanghoSuh.pdf?spm=a2c4e.11153940.blogcont603256.18.333b1d6fYOsiOK&file=LA_EdMining_SanghoSuh.pdf

8.Heights and Weights 數(shù)據(jù)集(身高體重預(yù)測)

這是一個(gè)相當(dāng)直接的回歸問題,非常適合新手。該數(shù)據(jù)集有25,000行3列(索引、高度和權(quán)重)個(gè)數(shù)據(jù)。

問題:預(yù)測一個(gè)人的身高或體重。

資源:

數(shù)據(jù)集:http://wiki.stat.ucla.edu/socr/index.php/SOCR_Data_Dinov_020108_HeightsWeights?spm=a2c4e.11153940.blogcont603256.19.333b1d6fYOsiOK

教程:https://www3.nd.edu/~steve/computing_with_data/2_Motivation/motivate_ht_wt.html?spm=a2c4e.11153940.blogcont603256.20.333b1d6fYOsiOK

中級(jí)

1. Black Friday數(shù)據(jù)集(黑色星期五)

這是一個(gè)包含零售商店記錄的銷售交易的經(jīng)典數(shù)據(jù)集,可以擴(kuò)展特征工程的技能,并從每天的購物經(jīng)驗(yàn)中對(duì)其進(jìn)行理解,是一個(gè)回歸問題。該數(shù)據(jù)集有550,069行12列個(gè)數(shù)據(jù)。

問題:預(yù)測購買力。

教程:

數(shù)據(jù)集:https://datahack.analyticsvidhya.com/contest/black-friday/?spm=a2c4e.11153940.blogcont603256.21.333b1d6fYOsiOK

教程:https://discuss.analyticsvidhya.com/t/black-friday-data-hack-reveal-your-approach/5986?spm=a2c4e.11153940.blogcont603256.22.333b1d6fYOsiOK

2. Human Activity Recognition 數(shù)據(jù)集(人類活動(dòng)識(shí)別)

該數(shù)據(jù)集通過帶有嵌入式慣性傳感器的智能手收集了30個(gè)實(shí)驗(yàn)者的記錄,可用于分類問題。數(shù)據(jù)集有10,299行561列個(gè)數(shù)據(jù)。

問題:預(yù)測人類活動(dòng)的類別。

資源:

數(shù)據(jù)集:http://archive.ics.uci.edu/ml/datasets/Human+Activity+Recognition+Using+Smartphones?spm=a2c4e.11153940.blogcont603256.23.333b1d6fYOsiOK

教程: https://rstudio-pubs-static.s3.amazonaws.com/291850_859937539fb14c37b0a311db344a6016.html?spm=a2c4e.11153940.blogcont603256.24.333b1d6fYOsiOK

3. Text Mining數(shù)據(jù)集(文本挖掘)

該數(shù)據(jù)集最初來自于2007年Siam文本挖掘競賽,包括描述某些發(fā)生故障的航班的航空安全報(bào)告,是一個(gè)多分類和高維度問題。該數(shù)據(jù)集有21,519行30,438列個(gè)數(shù)據(jù)。

問題:根據(jù)文本標(biāo)簽對(duì)文本進(jìn)行分類。

資源:

數(shù)據(jù)集:https://yq.aliyun.com/articles/603256?spm=a2c4e.11153959.0.0.112a2dc6bqmpJ9#siam-competition2007

教程:https://wtlab.um.ac.ir/images/e-library/text_mining/Survey%20of%20Text%20Mining%202%20.pdf?spm=a2c4e.11153940.blogcont603256.26.333b1d6fYOsiOK&file=Survey%20of%20Text%20Mining%202%20.pdf

4. Trip History數(shù)據(jù)集(旅行歷史)

此數(shù)據(jù)集來自美國的共享自行車服務(wù)。該數(shù)據(jù)集需要使用專業(yè)的數(shù)據(jù)處理技術(shù),該數(shù)據(jù)集種的數(shù)據(jù)是從2010年第四季度開始按季度記錄的。每個(gè)文件有7列是一個(gè)分類問題。

問題:預(yù)測用戶的類別。

資源:

數(shù)據(jù)集:https://www.capitalbikeshare.com/trip-history-data?spm=a2c4e.11153940.blogcont603256.27.333b1d6fYOsiOK

教程:https://www.analyticsvidhya.com/blog/2015/06/solution-kaggle-competition-bike-sharing-demand/?spm=a2c4e.11153940.blogcont603256.28.333b1d6fYOsiOK

5. Million Song數(shù)據(jù)集(預(yù)測歌曲發(fā)行時(shí)間)

你知道數(shù)據(jù)科學(xué)現(xiàn)在也用于娛樂行業(yè)嗎?這個(gè)數(shù)據(jù)集提出了一個(gè)回歸任務(wù),由515,345個(gè)觀察值和90個(gè)變量組成。但是,這僅僅是原始數(shù)據(jù)庫(約一百萬首歌曲)中的一小部分。

問題:預(yù)測歌曲的發(fā)行時(shí)間。

資源:

數(shù)據(jù)集 :http://archive.ics.uci.edu/ml/datasets/YearPredictionMSD?spm=a2c4e.11153940.blogcont603256.29.333b1d6fYOsiOK

教程:http://www-personal.umich.edu/~yjli/content/projectreport.pdf?spm=a2c4e.11153940.blogcont603256.30.333b1d6fYOsiOK&file=projectreport.pdf

6.Census Income數(shù)據(jù)集(預(yù)測人口收入)

這是一個(gè)經(jīng)典的不平衡分類機(jī)器學(xué)習(xí)問題,F(xiàn)在,機(jī)器學(xué)習(xí)廣泛應(yīng)用于正被廣泛用于解決不平衡問題,如癌癥檢測、欺詐檢測等。該數(shù)據(jù)集有48,842行14列個(gè)數(shù)據(jù)。

問題:預(yù)測美國人的收入水平。

資源:

數(shù)據(jù)集:http://archive.ics.uci.edu/ml/machine-learning-databases/census-income-mld/?spm=a2c4e.11153940.blogcont603256.31.333b1d6fYOsiOK

教程:https://cseweb.ucsd.edu/~jmcauley/cse190/reports/sp15/048.pdf?spm=a2c4e.11153940.blogcont603256.32.333b1d6fYOsiOK&file=048.pdf

7. Movie Lens數(shù)據(jù)集(電影推薦系統(tǒng))

用于構(gòu)建推薦系統(tǒng),該數(shù)據(jù)集是數(shù)據(jù)科學(xué)行業(yè)中最受歡迎的“數(shù)據(jù)集”之一,有不同大小的數(shù)據(jù)集。這里有一個(gè)較小的數(shù)據(jù)集,包含4,000部電影,6000個(gè)用戶的100萬個(gè)收視率。

問題:為用戶推薦電影。

資源:

數(shù)據(jù)集:http://grouplens.org/datasets/movielens/1m/?spm=a2c4e.11153940.blogcont603256.33.333b1d6fYOsiOK

教程:https://www.analyticsvidhya.com/blog/2016/06/quick-guide-build-recommendation-engine-python/?spm=a2c4e.11153940.blogcont603256.34.333b1d6fYOsiOK

8. Twitter Classification數(shù)據(jù)集(預(yù)測推文)

Twitter數(shù)據(jù)已成為情感分析不可分割的一部分。該數(shù)據(jù)集大小為3MB,包含31,962條推文。

問題:預(yù)測哪些推文是令人討厭的,哪些不是。

資源:

數(shù)據(jù)集:https://datahack.analyticsvidhya.com/contest/practice-problem-twitter-sentiment-analysis/?spm=a2c4e.11153940.blogcont603256.35.333b1d6fYOsiOK

教程:https://github.com/abdulfatir/twitter-sentiment-analysis?spm=a2c4e.11153940.blogcont603256.36.333b1d6fYOsiOK

高級(jí)

1.識(shí)別數(shù)字的數(shù)據(jù)集

用于研究、分析和識(shí)別圖像中的元素,這就是使用相機(jī)識(shí)別面部的技術(shù),屬于數(shù)字識(shí)別問題。該數(shù)據(jù)集有28,000個(gè)28*28大小的圖像,總計(jì)31MB。

問題:從圖像中識(shí)別數(shù)字。

資源:

數(shù)據(jù)集:https://datahack.analyticsvidhya.com/contest/practice-problem-identify-the-digits/?spm=a2c4e.11153940.blogcont603256.37.333b1d6fYOsiOK

教程:https://www.analyticsvidhya.com/blog/2016/10/an-introduction-to-implementing-neural-networks-using-tensorflow/?spm=a2c4e.11153940.blogcont603256.38.333b1d6fYOsiOK

2.城市聲音分類

該項(xiàng)目旨在介紹常用的音頻分類問題。該數(shù)據(jù)集由10個(gè)類別(包含來自8,732個(gè)城市聲音的記錄)組成。

問題:對(duì)音頻進(jìn)行分類。

資源:

數(shù)據(jù)集:https://datahack.analyticsvidhya.com/contest/practice-problem-urban-sound-classification/?spm=a2c4e.11153940.blogcont603256.39.333b1d6fYOsiOK

教程:https://www.analyticsvidhya.com/blog/2017/08/audio-voice-processing-deep-learning/?spm=a2c4e.11153940.blogcont603256.40.333b1d6fYOsiOK

3. Vox名人數(shù)據(jù)集

音頻處理正迅速成為深度學(xué)習(xí)的重要領(lǐng)域,因此這是另一個(gè)具有挑戰(zhàn)性的問題。此數(shù)據(jù)集收集了大型演講者的演講,并從YouTube中提取的名人的講話。對(duì)于語音識(shí)別來說,這是一個(gè)很有趣的項(xiàng)目。該數(shù)據(jù)集包含1,251位名人發(fā)表的100,000條言論。

問題:找出聲音屬于哪個(gè)名人。

資源:

數(shù)據(jù)集:http://www.robots.ox.ac.uk/~vgg/data/voxceleb/?spm=a2c4e.11153940.blogcont603256.41.333b1d6fYOsiOK

教程:https://www.robots.ox.ac.uk/~vgg/publications/2017/Nagrani17/nagrani17.pdf?spm=a2c4e.11153940.blogcont603256.42.333b1d6fYOsiOK&file=nagrani17.pdf

4. ImageNet數(shù)據(jù)集

ImageNet提供了各種各樣的問題,包括對(duì)象檢測、定位、分類和屏幕分析。 所有的圖像都是免費(fèi)的,你可以搜索任何類型的圖像來構(gòu)建項(xiàng)目。截至目前,該數(shù)據(jù)集擁有超過1500萬張圖片,大小超過140GB。

問題:要解決的問題會(huì)受下載圖像的類型影響。

資源:

數(shù)據(jù)集:http://image-net.org/download-imageurls?spm=a2c4e.11153940.blogcont603256.43.333b1d6fYOsiOK

教程:http://image-net.org/download-imageurls?spm=a2c4e.11153940.blogcont603256.44.333b1d6fYOsiOK

5.芝加哥犯罪數(shù)據(jù)集

現(xiàn)在,每個(gè)數(shù)據(jù)科學(xué)家都希望能夠處理大型數(shù)據(jù)集,是一個(gè)多分類問題。該數(shù)據(jù)集在本地提供了處理大型數(shù)據(jù)集所需的實(shí)踐經(jīng)驗(yàn)。問題很簡單,但數(shù)據(jù)管理是關(guān)鍵!這個(gè)數(shù)據(jù)集有6,000,000個(gè)觀測值。

問題:預(yù)測犯罪類型。

資源:

數(shù)據(jù)集:https://data.cityofchicago.org/Public-Safety/Crimes-2001-to-present/ijzp-q8t2?spm=a2c4e.11153940.blogcont603256.45.333b1d6fYOsiOK

教程:https://yq.aliyun.com/nathanwayneholt.com/mathematicalmodeling/ChicagoCrimesReport.pdfaceholder?spm=a2c4e.11153940.blogcont603256.46.333b1d6fYOsiOK&file=ChicagoCrimesReport.pdfaceholder

6.印度演員年齡檢測

對(duì)于任何深度學(xué)習(xí)愛好者來說,這是一個(gè)令人著迷的挑戰(zhàn)。該數(shù)據(jù)集包含數(shù)千個(gè)印度演員的圖像,用來預(yù)測其年齡。所有圖像都是人工手動(dòng)從視頻幀中選取的,這就導(dǎo)致了尺度、姿勢、表情、照明、年齡、分辨率、遮擋和化妝等的高度可變性。訓(xùn)練集中有19,906幅圖像,測試集中有6,636幅圖像。

問題:預(yù)測演員的年齡。

資源:

數(shù)據(jù)集:http://image-net.org/download-imageurls?spm=a2c4e.11153940.blogcont603256.47.333b1d6fYOsiOK

教程:https://www.analyticsvidhya.com/blog/2017/06/hands-on-with-deep-learning-solution-for-age-detection-practice-problem/?spm=a2c4e.11153940.blogcont603256.48.333b1d6fYOsiOK

7.推薦引擎數(shù)據(jù)集

這是一項(xiàng)高級(jí)推薦系統(tǒng)挑戰(zhàn)賽。在這個(gè)項(xiàng)目中,你會(huì)得到以前解決的程序和數(shù)據(jù),以及解決特定問題的時(shí)間。作為一名數(shù)據(jù)科學(xué)家,你構(gòu)建的模型將協(xié)助在線評(píng)委決定向用戶推薦的下一級(jí)問題。

問題:根據(jù)用戶的當(dāng)前狀態(tài),預(yù)測解決問題所需要的時(shí)間。

資源:

數(shù)據(jù)庫:https://datahack.analyticsvidhya.com/contest/practice-problem-recommendation-engine/?spm=a2c4e.11153940.blogcont603256.49.333b1d6fYOsiOK

8. VisualQA數(shù)據(jù)集

VisualQA是一個(gè)包含圖像的開放式問題數(shù)據(jù)集。這些問題需要理解計(jì)算機(jī)視覺和語言,這些問題有一個(gè)自動(dòng)評(píng)估指標(biāo)。數(shù)據(jù)集包含265,016張圖片,每張圖片3個(gè)問題,且每個(gè)問題有10個(gè)標(biāo)記好的答案。

問題:使用深度學(xué)習(xí)回答有關(guān)圖像的開放式問題。

資源:

數(shù)據(jù)集:http://www.visualqa.org/?spm=a2c4e.11153940.blogcont603256.50.333b1d6fYOsiOK

教程:https://arxiv.org/abs/1708.02711?spm=a2c4e.11153940.blogcont603256.51.333b1d6fYOsiOK&file=1708.02711

總結(jié)

在上面列出的24個(gè)數(shù)據(jù)集中,你應(yīng)該首先找到與自身技能相匹配的數(shù)據(jù)集進(jìn)行實(shí)踐和練習(xí)。比如說,假如你是一位初學(xué)者,請(qǐng)先從初級(jí)數(shù)據(jù)集開始實(shí)踐,而不是直接從高級(jí)數(shù)據(jù)集開始練習(xí)。

標(biāo)簽: 安全 數(shù)據(jù)分析 數(shù)據(jù)庫 搜索 網(wǎng)絡(luò)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:微軟收購GitHub引研究者擔(dān)憂,Nature發(fā)文討論各方態(tài)度

下一篇:暗網(wǎng)兜售近200萬條“前程無憂”用戶信息,官方回應(yīng):這真不是我的鍋