中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

四說大數(shù)據(jù)時代“神話”:從大數(shù)據(jù)到深數(shù)據(jù)

2019-02-13    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

 

作為國內(nèi)最大的電商平臺之一,蘇寧每天要處理數(shù)量巨大的數(shù)據(jù)。為了更快速高效地處理這些數(shù)據(jù),蘇寧調(diào)度平臺采取了哪些措施呢?

本文是蘇寧大數(shù)據(jù)離線任務開發(fā)調(diào)度平臺實踐系列文章之上篇,詳解蘇寧的任務調(diào)度模塊。

在機器學習領域一直有一個基礎性的誤解,即更大的數(shù)據(jù)會產(chǎn)生更好的學習效果。然而,更大的數(shù)據(jù)并不一定意味著能發(fā)現(xiàn)更深刻的信息。實際上,與數(shù)據(jù)的規(guī)模相比,數(shù)據(jù)的質(zhì)量、價值和多樣性更值得關注,即數(shù)據(jù)的“深度”重于“廣度”。本文從四個角度思考了大數(shù)據(jù)時代的問題并提出了一些建議的做法以改善這些問題。

最近一段時間,對大數(shù)據(jù)的炒作正在減弱。云計算,Hadoop 及其他類似的工具已經(jīng)有效地解決了大數(shù)據(jù)的處理問題。但是,仍有大部分人愿意在基礎設施上加大投資力度,以期望處理、保存和組織這些大型數(shù)據(jù)庫。一味的地追求“大”,會在基礎設施和人力資源方面產(chǎn)生一定程度上的不必要成本。

而現(xiàn)在,是時候將熱點從“大數(shù)據(jù)”改為“深數(shù)據(jù)”了。如今,我們對待數(shù)據(jù)應當更加深思熟慮,而不是不加篩選地收集所有可獲得的數(shù)據(jù)來實現(xiàn)“大數(shù)據(jù)”。我們現(xiàn)在需要讓一些數(shù)據(jù)落實到位,并尋求數(shù)量和質(zhì)量的多樣性。這一舉措將帶來許多長期利益。

四種大數(shù)據(jù)神話

要理解從“大”到“深”的這種轉變,首先讓我們看一下對大數(shù)據(jù)的一些錯誤觀念。以下是一些嚴重夸大的大數(shù)據(jù)神話:

所有數(shù)據(jù)都可以并且應當被捕獲和存儲。

更多的數(shù)據(jù)總是有助于建立更準確的預測模型。

儲存更多數(shù)據(jù)的成本幾乎為零。

計算更多數(shù)據(jù)的成本幾乎為零。

然而:

來自物聯(lián)網(wǎng)和網(wǎng)絡流量的數(shù)據(jù)顯然超過了我們的捕獲能力。很多數(shù)據(jù)都需要在獲取時進行預處理以便儲存和管理。我們需要依照其價值對數(shù)據(jù)進行分類與篩選。

重復使用一千次相同的數(shù)據(jù)進行訓練并不會提高預測模型的準確性。

存儲更多數(shù)據(jù)的成本不僅僅是亞馬遜網(wǎng)絡服務向您收取的以 TB 計費的美元。同時也包括系統(tǒng)在查找和管理多個數(shù)據(jù)源的額外復雜性,以及員工移動和使用該數(shù)據(jù)的“虛擬重量”。這些成本通常高于存儲和計算費用。

人工智能算法對計算資源的需求會快速超越彈性云基礎設施所能提供的算力。在沒有專業(yè)的管理策略的情況下,計算資源會呈線性增長,而計算需求則會出現(xiàn)超線性增長,甚至指數(shù)級增長。

如果輕信了這些神話,你所構建的信息系統(tǒng)可能看起來會像是紙上談兵,或從長期角度看起來很好,但在即時性的框架中實現(xiàn)起來則是復雜且低效的。

四種大數(shù)據(jù)問題

以下是在數(shù)據(jù)方面盲目相信“越多越好”會導致的四個問題:

重復的數(shù)據(jù)對模型無益。在為 AI 構建機器學習模型時,訓練樣本的多樣性至關重要。原因是模型試圖確定概念邊界。例如,如果您的模型試圖通過年齡和職業(yè)來定義“退休工人”的概念,那么像“32 歲的注冊會計師”這樣的重復樣本對該模型并沒有什么價值,因為這些人大都沒有退休。在 65 歲的概念邊界中獲得樣本并了解退休如何隨職業(yè)而變化則更具有價值。

低質(zhì)量數(shù)據(jù)會對模型有害。在 AI 試圖學習兩個概念之間邊界的過程中,如果新數(shù)據(jù)是不精確的,或存在錯誤,那么它會混淆這個邊界。在這種情況下,更多數(shù)據(jù)無濟于事,并且還有可能會降低現(xiàn)有模型的準確性。

大數(shù)據(jù)增加了時間成本。對于不同學習算法,在 TB 級的數(shù)據(jù)上構建模型可能會比在數(shù) GB 的數(shù)據(jù)上構建模型多花費約千倍、甚至萬倍的時間。數(shù)據(jù)科學本就是快速實驗,雖不完美卻輕量的模型更具有前景。數(shù)據(jù)科學一旦失去了速度,則失去了未來。

大數(shù)據(jù)環(huán)境下易于實現(xiàn)的模型。任何預測模型的最終目的都是創(chuàng)建一個可用于商業(yè)部署的高度準確的模型。有時使用來自數(shù)據(jù)庫深處陰暗面的模糊數(shù)據(jù)可能會產(chǎn)生更高的準確性,但所使用的數(shù)據(jù)對于實際部署可能是有風險的。使用一個不太準確卻可以快速部署和運行的模型往往更好。

四種更好的措施

您可以采取一些措施來對抗大數(shù)據(jù)的“陰暗面”并轉為深度數(shù)據(jù)思維:

學會在準確性和執(zhí)行性之前權衡。數(shù)據(jù)科學家普遍喜歡將目標定為更準確的模型。實際上,你應當根據(jù)準確性和部署速度,計算合理的 ROI 期望,然后再開始你的項目。

使用隨機樣本構建每個模型。如果你已經(jīng)獲得了大數(shù)據(jù),那么沒有理由不使用它。如果可以使用好的隨機抽樣方法,那么你可以先使用小樣本建立模型,然后在整個數(shù)據(jù)庫上進行訓練和調(diào)試以獲得更準確的預測模型。

丟棄一些數(shù)據(jù)。如果您對來自物聯(lián)網(wǎng)設備和其他來源的流數(shù)據(jù)感到不知所措,請拋棄一些數(shù)據(jù),不要有太大的負擔。如果你無法購買足夠的磁盤來存儲多余的數(shù)據(jù),它會破壞你在數(shù)據(jù)科學生產(chǎn)線后期的所有工作。

尋找更多數(shù)據(jù)源。人工智能最近的許多突破并不是因為更大的數(shù)據(jù)集,而是能夠將機器學習算法成功的運用于這些數(shù)據(jù),這在之前是無法實現(xiàn)的。例如,如今普遍存在的大型文本,圖像,視頻和音頻數(shù)據(jù)集在二十年前并不存在。你應當不斷尋找新的數(shù)據(jù)以找到更好的機會。

四種得到的改善

如果您專注于深度數(shù)據(jù)而不僅僅是數(shù)據(jù)的廣度,您將享受到許多好處。以下是一些關鍵問題:

一切都會更快。使用較小的數(shù)據(jù),您的數(shù)據(jù)遷移、實驗、訓練和模型測試都會快得多。

更少的存儲和計算需求。專注于深度數(shù)據(jù)意味著您將更加智能地使用更小的磁盤以及云平臺占用空間。這將為你節(jié)省一筆可觀的基礎設施成本,用你節(jié)省的資金聘請更多數(shù)據(jù)科學家和 AI 專家吧!

低壓的 IT 人員和更高幸福感的數(shù)據(jù)科學家。憑借深厚的數(shù)據(jù)文化,您的 IT 團隊將不會愿意聽從數(shù)據(jù)科學家的意見行事,或者不得不終止所有因沉浸于云資源而失控的作業(yè)。同樣,當數(shù)據(jù)科學家花費更多時間構建和測試模型,而不是將這些時間消耗在遷移數(shù)據(jù)或等待長時間的訓練過程時,他們會更加高興。

更難的問題可以解決。構建 AI 模型并不是一種神奇的體驗,只能由類似巫師的研究人員執(zhí)行。事實上,邏輯遠比魔術更重要。這類似于一位藝術老師的故事,他告訴半個班級,他們的成績將取決于他們制作的藝術品的數(shù)量,另一半的成績將根據(jù)他們最好的作品的質(zhì)量進行評分。很多學生都創(chuàng)造了大量的藝術品,并且令人震驚的是,這些藝術品的質(zhì)量也都不差。數(shù)量和質(zhì)量很多時候并不矛盾。這則例子是想說明:在相同資源約束下嘗試的更多模型可能意味著可以獲得質(zhì)量更高的模型。

許多公司的決策過程都在逐漸轉變?yōu)閿?shù)據(jù)驅動的方式,這與大數(shù)據(jù)及其技術方面的突破密不可分。隨著人工智能的興起以及對這些強大資源的處理能力的飽和,我們現(xiàn)在需要更加精確地根據(jù)我們的數(shù)據(jù)需求建立一種理解深度數(shù)據(jù)而不僅僅是廣度數(shù)據(jù)的文化。

作者:Stephen Smith

翻譯:郝毅查看英文原文:https://www.kdnuggets.com/2019/01/4-myths-big-data-deep-data.html

標簽: 大數(shù)據(jù) 大數(shù)據(jù)時代 電商 電商平臺 數(shù)據(jù)庫 網(wǎng)絡 云計算

版權申明:本站文章部分自網(wǎng)絡,如有侵權,請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:Kaggle調(diào)查:2018年數(shù)據(jù)科學家最常用(和最推薦)的編程語言榜單

下一篇:區(qū)塊鏈,數(shù)字社會的可信連接