中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

做數(shù)據(jù)科學(xué)如烤蛋糕?不服來看

2018-10-16    來源:raincent

容器云強(qiáng)勢上線!快速搭建集群,上萬Linux鏡像隨意使用

數(shù)據(jù)科學(xué)是什么,用來干什么?數(shù)據(jù)科學(xué)使用數(shù)學(xué)和不同的機(jī)器學(xué)習(xí)方法(也稱算法)來實(shí)現(xiàn)不同目的。具體來講,就和烤蛋糕的原理有些類似,至于怎么個(gè)類似法,請看作者的詳細(xì)解說 ↓↓↓

面部識別、自動(dòng)駕駛、機(jī)器人統(tǒng)治世界?!還有那個(gè)令人毛骨悚然的機(jī)器人女孩,索菲亞。emmm…還有黑鏡?

我們想知道它們都是怎么工作的!高@全是人工智能!故堑摹5覀兿胫栏。

數(shù)據(jù)科學(xué)、人工智能、大數(shù)據(jù)、機(jī)器學(xué)習(xí)等都是最近的熱門詞匯。它們大多與谷歌、蘋果和亞馬遜等大型科技公司有關(guān)。

幸運(yùn)的是,你不用成為一名數(shù)據(jù)科學(xué)家就能對數(shù)據(jù)科學(xué)有所了解。只要你對此熱愛、好奇即可。

什么是數(shù)據(jù)科學(xué)?

要事第一!

 

 

向亞馬遜的聊天機(jī)器人尋求答案

數(shù)據(jù)科學(xué)使用數(shù)學(xué)和不同的機(jī)器學(xué)習(xí)方法(也稱算法)來實(shí)現(xiàn)不同目的。

機(jī)器學(xué)習(xí)(ML)是編寫計(jì)算機(jī)程序的科學(xué)和藝術(shù),它使計(jì)算機(jī)具有了學(xué)習(xí)能力。你的計(jì)算機(jī)現(xiàn)在可以從它觀察到的數(shù)據(jù)中學(xué)習(xí),而不是像在傳統(tǒng)計(jì)算機(jī)程序中那樣盲目地遵循一套固定規(guī)則。你罵電腦是笨蛋的日子一去不復(fù)返了。

但是數(shù)據(jù)科學(xué)在哪里發(fā)揮作用呢?就在我們身邊。Facebook 給你推薦可能認(rèn)識的人、Youtube 預(yù)測股票市場價(jià)格的推薦系統(tǒng),都需要數(shù)據(jù)科學(xué)。

數(shù)據(jù)科學(xué)按照一系列步驟來獲得這些答案,而使用機(jī)器學(xué)習(xí)算法只是其中之一。

數(shù)據(jù)科學(xué)流程綜述

我們要明白這樣一個(gè)事實(shí):無論電腦學(xué)什么,它都是從數(shù)據(jù)中學(xué)習(xí)。將數(shù)據(jù)視為配料、數(shù)據(jù)預(yù)處理視為食譜、機(jī)器學(xué)習(xí)算法視為烤箱、最終結(jié)果視為蛋糕。蛋糕的美味程度取決于原料的質(zhì)量、食譜和烤箱溫度設(shè)置。同樣地,數(shù)據(jù)的質(zhì)量非常重要,你采用的方法也是如此。

 

 

數(shù)據(jù)科學(xué)流程抽象圖

數(shù)據(jù)和數(shù)據(jù)預(yù)處理

因此,第一步是收集數(shù)據(jù)并進(jìn)行處理。就像你要買食材一樣。

還需要確保數(shù)據(jù)與將要解決的問題相關(guān)。弄清楚需要多少數(shù)據(jù),以及數(shù)據(jù)的形式(或格式),就像做蛋糕你要方糖還是砂糖?真實(shí)世界的數(shù)據(jù)集通常以表格形式顯示,例如.xls、.csv 或.json 等。

有大量不同的算法可以幫助你進(jìn)行數(shù)據(jù)清理和預(yù)處理。訓(xùn)練模型的數(shù)據(jù)會(huì)極大地影響模型性能。就像食譜決定蛋糕的味道。

數(shù)據(jù)集類型

數(shù)據(jù)集是以適當(dāng)格式收集所有示例的集合。它可以是一個(gè)*標(biāo)注的*數(shù)據(jù)集,也可以是一個(gè)*未標(biāo)注的*數(shù)據(jù)集。

標(biāo)注的數(shù)據(jù)集是指具有特征值及其結(jié)果的數(shù)據(jù)集。而未標(biāo)注的數(shù)據(jù)集中只有特征值。

特征好比不同的食材,如:牛奶、黃油、糖和雞蛋是四個(gè)不同的特征。這些特征的結(jié)果是一個(gè)蛋糕。是特征幫你得到結(jié)果。

這是真實(shí)數(shù)據(jù)集的樣子:

 

 

用于預(yù)測房價(jià)的標(biāo)注數(shù)據(jù)集

選擇機(jī)器學(xué)習(xí)算法

一旦數(shù)據(jù)集準(zhǔn)備好了,就該使用機(jī)器學(xué)習(xí)算法了。這就是把蛋糕糊放進(jìn)烤箱。

數(shù)據(jù)集和標(biāo)簽幫助你確定使用哪種算法。就像如果你想做一些冰淇淋,你需要的不是烤箱而是冰箱。你的配料和配方也會(huì)改變。

 

 

可供選擇的算法

訓(xùn)練、測試、預(yù)測!

只學(xué)習(xí)測試中會(huì)出現(xiàn)的題目,你絕對會(huì)通過測試。但遇到?jīng)]見過的題,就不會(huì)考得很好了。我們希望模型即使在沒見過的例子上也能表現(xiàn)得很好。為了確保這一點(diǎn),我們采用了一種技術(shù)。

我們將數(shù)據(jù)集分為兩組:訓(xùn)練集和測試集。通常以 7:3 的比例來劃分,這樣有利于訓(xùn)練。

我們的模型僅從訓(xùn)練集的例子中學(xué)習(xí)。這樣劃分?jǐn)?shù)據(jù)集可以幫助我們評估模型表現(xiàn),明確提升空間。

 

 

訓(xùn)練-測試分解圖

測試很簡單。你問,模型答,然后給模型打分。它起作用是因?yàn)槟闶窃谖匆娺^的例子上評估模型。通過的標(biāo)準(zhǔn)取決于你的需求。通常 80% 的通過率是可以達(dá)到的。

如果模型在第一次嘗試中失敗,不要失望,因?yàn)樵谧畛醯膰L試中失敗是很正常的。這是因?yàn)殚_始時(shí)你總是使用較簡單的方法,然后根據(jù)測試得分,逐漸增加解決方案的復(fù)雜性。但在此之前,請重新評估你的數(shù)據(jù)集以及它的預(yù)處理方式。重復(fù)此過程,直到模型通過測試。

 

 

測試模型

一旦模型通過測試,就可以投入使用。換句話說,它為實(shí)時(shí)預(yù)測做好了準(zhǔn)備。

提示:保持測試集中的數(shù)據(jù)模式與訓(xùn)練集中的數(shù)據(jù)模式相同。

數(shù)據(jù)可視化

既然你已經(jīng)烤好了蛋糕,而且看起來很好吃,那就該上桌了。也許可以加一些糖霜,把它放在一個(gè)漂亮的托盤里等等。讓它看起來更美味。

這就是數(shù)據(jù)可視化。通過制作圖表,你可以利用不同的數(shù)據(jù)可視化技術(shù)向受眾傳達(dá)你對數(shù)據(jù)的理解。數(shù)據(jù)可視化可以在任何階段進(jìn)行,你可以在訓(xùn)練集中繪制現(xiàn)有的基礎(chǔ)圖案。

 

 

就像我說的,你不用成為數(shù)據(jù)科學(xué)家就能對數(shù)據(jù)科學(xué)有所了解。希望你喜歡我剛烤好的「蛋糕」。

標(biāo)簽: 大數(shù)據(jù) 谷歌

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:給Python學(xué)習(xí)者的文件讀寫指南(含基礎(chǔ)與進(jìn)階)

下一篇:AI情緒識別技術(shù)背后:一場悄然來襲的“暴政”