站長資訊平臺

數(shù)據(jù)科學(xué)家必看！處理小數(shù)據(jù)的7個技巧

2019-07-23 來源：raincent

我們經(jīng)常會聽到，大數(shù)據(jù)是建立成功的機器學(xué)習(xí)項目的關(guān)鍵。

一個主要的問題是：許多組織沒有你需要的數(shù)據(jù)。

在沒有最基本的、必要的、未經(jīng)處理數(shù)據(jù)的情況下，我們應(yīng)該如何為機器學(xué)習(xí)的概念建立原型并加以驗證呢?在資源匱乏的情況下，我們應(yīng)如何有效地獲取并用數(shù)據(jù)創(chuàng)造價值?

在我工作的地方，我們會為客戶建立許多函數(shù)原型。為此，小數(shù)據(jù)對我大有幫助。在這篇文章中我會分享7個小技巧，能幫助你在用小數(shù)據(jù)集建立原型時改善成果。

1：意識到你的模型并不完美

這是第一要務(wù)，你正在建立一個模型，這個模型的認知只基于一個大集合中的一小部分，所以模型也只有在這一處或這一情況下才能夠如預(yù)期一般運行良好。

如果你正在根據(jù)一些選中的室內(nèi)照片建立一個計算機視覺模型，不要期待它也能很好地處理室外照片。如果你想要建立一個基于聊天室調(diào)侃的語言模型，不要期待它可以寫一部精彩的小說。

確保你的經(jīng)理或客戶也能這樣理解。這樣，所有人對你的模型能傳達的結(jié)果會達成一個統(tǒng)一且現(xiàn)實的期待。同時，也有助于提出新的KPI指標，以便在原型范圍內(nèi)外對模型性能進行量化。

2：建立良好的數(shù)據(jù)基礎(chǔ)設(shè)施

在許多情況下，客戶并沒有你所需要的數(shù)據(jù)，公開數(shù)據(jù)也不足以成為一個代替選項。如果你的部分原型需要收集和標記新數(shù)據(jù)，要確保你的基礎(chǔ)設(shè)施在處理的同時產(chǎn)生的阻力越小越好。

你需要確保數(shù)據(jù)標記足夠簡單以至非技術(shù)人員也能輕松理解。我們會用到Prodigy，我認為這是一種易得且可擴展的好工具。根據(jù)項目的規(guī)模，你可能還想設(shè)立一個自動的數(shù)據(jù)攝取工具，它可以吸收新數(shù)據(jù)并自動將新數(shù)據(jù)傳輸給標記系統(tǒng)。

你的系統(tǒng)獲取新數(shù)據(jù)越快捷簡單，你就能得到越多數(shù)據(jù)。

3：增加數(shù)據(jù)

你可以通過增加已有的數(shù)據(jù)來拓展你的數(shù)據(jù)庫。比如可以對數(shù)據(jù)進行輕微調(diào)整，但又不會顯著影響模型輸出結(jié)果。比如說一張貓的圖片旋轉(zhuǎn)了40度，仍然是貓的圖片。

在大部分案例中，增加技巧可以使你創(chuàng)造更多的“半獨一無二”數(shù)據(jù)點來訓(xùn)練你的模型。你可在開始時向數(shù)據(jù)中加入少量的高斯噪聲。

對于計算機視覺，有許多簡便的方法來增加你的圖像，我曾有良好的Albumentations 數(shù)據(jù)庫使用體驗，它可以在進行許多有效的圖像轉(zhuǎn)化的同時，不使標記受損。

初始，水平翻轉(zhuǎn)，垂直翻轉(zhuǎn)，調(diào)整比例和旋轉(zhuǎn)角度

另一種被大部分人認為有效的增加技巧是混合。這種技巧即字面意義上的將兩張輸入的圖片放在一起讓它們混合，并且組合它們的標簽。

初始圖片，混合，噪式混合，垂直連接

在增加其他類型的輸入數(shù)據(jù)時時，需要考慮格式的轉(zhuǎn)換是否會改變標記。

4：生成合成數(shù)據(jù)

如果你困于增加真實數(shù)據(jù)的方案選擇，你可以開始考慮創(chuàng)造一些偽造的數(shù)據(jù)，生成合成數(shù)據(jù)是應(yīng)對極端案例的好方法，而你的真實數(shù)據(jù)庫無法應(yīng)對。

舉個例子，許多機器人技術(shù)的強化學(xué)習(xí)系統(tǒng)(比如OpenAI的Dactyl)在配置真實的機器人之前，會在模擬3D環(huán)境中進行訓(xùn)練。對于圖像識別系統(tǒng)，你可以類似地建立一個3d情景，它可以提供你上千種新數(shù)據(jù)點。

15個模擬的Dactyl訓(xùn)練實例

還有許多方法可用于創(chuàng)造合成數(shù)據(jù)，在Kanda，我們開發(fā)了一種基于轉(zhuǎn)盤的解決方案用于創(chuàng)造目標檢測用的數(shù)據(jù)。如果你有很大的數(shù)據(jù)需求，你可以考慮使用Generative Adverserial Networks 來創(chuàng)造合成數(shù)據(jù)。由于GANs是難以訓(xùn)練是廣為人知的，所以先要確認這方案是值得嘗試的。

NVIDIAs GauGAN 實操

有時你可以結(jié)合多種方法：蘋果公司有一種非常聰明的方法，使用GAN來處理3D建模的臉部圖像使得其看起來更具照片所呈現(xiàn)的真實感。如果你有時間的話，這是一種不錯的拓展數(shù)據(jù)庫的方法。

5：謹慎處理數(shù)據(jù)幸運分裂

訓(xùn)練機器學(xué)習(xí)模型時，數(shù)據(jù)集通常會根據(jù)一定的比率隨機地分成訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集。通常這沒有什么，但是在處理小數(shù)據(jù)集時，因為訓(xùn)練數(shù)據(jù)樣本的低容量會產(chǎn)生一個高水平的噪音風(fēng)險。

在這種情況下，你可能意外得到了一個數(shù)據(jù)幸運分裂。某種特定數(shù)據(jù)集分裂后，你的模型會正常運行，同時可以很好地歸納測試數(shù)據(jù)集。然而在現(xiàn)實中，這僅僅是因為測試數(shù)據(jù)集(巧合地)沒有包含難解的樣本。

在這個場景中，k折交叉驗證法是一個更好的選擇。基本來說，你可以將數(shù)據(jù)集分成K組，為每一組訓(xùn)練新模型，可選擇其中的一組用于測試，而將剩下的幾組全部用于訓(xùn)練。這可以保證你所看到的測試成果并不是簡單地因幸運(或不幸)分裂而產(chǎn)生的。

6：使用遷移學(xué)習(xí)

如果你處理某種標準數(shù)據(jù)格式，比如文本、圖像、視頻或聲音，你可以利用其他人已經(jīng)這些領(lǐng)域所取得的遷移學(xué)習(xí)成果來協(xié)助以上工作以提升效率，就像是站在巨人的肩膀上。

當(dāng)你進行遷移學(xué)習(xí)時，可以利用其他人已經(jīng)建好的模型。(通常，其他人指谷歌，臉書或者重點大學(xué))并且需要微調(diào)模型使其合適你的特殊需要。遷移學(xué)習(xí)有用是因為大多數(shù)任務(wù)所處理的語言、圖像或聲音享有許多共通的特征。以計算機視覺為例，遷移學(xué)習(xí)可以偵測特定種類的形狀，顏色或模式。

最近，我正為一位客戶建立目標檢測原型，這對準確性有較高要求。通過對MobileNet Single Shot Detector的微調(diào)和應(yīng)用，工作效率已經(jīng)很大程度的提升了，該遷移學(xué)習(xí)模型是通過谷歌的數(shù)據(jù)集訓(xùn)練得到的(含有900萬張已標記的圖片)。在一天的訓(xùn)練后，我能提供一個相當(dāng)穩(wěn)健的目標檢測模型，在一個采用1500張已標記圖片的測試中，顯示0.85的mAP。

7：嘗試弱學(xué)習(xí)者的組合

有時，你只需要面對一個現(xiàn)實，你就是沒有足夠的數(shù)據(jù)來搞胡里花哨的東西。幸運的是，你可以轉(zhuǎn)而求助許多傳統(tǒng)機器學(xué)習(xí)AI，它們對你的數(shù)據(jù)集規(guī)模并不敏感(不會因數(shù)據(jù)的低容量產(chǎn)生較大的測試偏差)。

當(dāng)數(shù)據(jù)集小，數(shù)據(jù)點維度高的時候的時候，像Support Vector Machine 這樣的AI是一個好的選擇。

遺憾的是，這些AI并不總是像先進應(yīng)用方法一樣準確。這就是為什么他們會稱之為弱學(xué)習(xí)者了，至少與高參數(shù)化神經(jīng)網(wǎng)絡(luò)相比。

改善這一情況的方法是，結(jié)合幾個弱學(xué)習(xí)者的成果。(這可以是Support Vector Machines和Decision Trees的數(shù)組，他們可以在一起工作，建立預(yù)測)。這就是聯(lián)合學(xué)習(xí)所指的內(nèi)容了。

原標題：7 Tips for Dealing With Small Data

作者：Daniel Rothmann in Towards Data Science

譯者：朱惠94(上海大學(xué))

英語原文：https://towardsdatascience.com/7-tips-for-dealing-with-small-data-7ffbd3d399a3

標簽：數(shù)據(jù) 蒲Ъ

版權(quán)申明：本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點！
本站所提供的圖片等素材，版權(quán)歸原作者所有，如需使用，請與原作者聯(lián)系。

上一篇:開源Brooklin：近實時大規(guī)模數(shù)據(jù)流式傳輸，取代Kafka Mirror Make

下一篇:數(shù)據(jù)共享的核心在定價，數(shù)據(jù)開放與隱私保護探討

相關(guān)文章

最新資訊

熱門推薦

為學(xué)習(xí)和知識分享目的，本站文章部分自網(wǎng)絡(luò)，本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：2653426586@qq.com QQ：2653426586

如有其他需求，請聯(lián)系：2653426586@qq.com QQ：2653426586

友情鏈接：網(wǎng)絡(luò)安全運維經(jīng)驗 IT技術(shù)分享運維隨筆錄鮮花東郊到家往約到家

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

數(shù)據(jù)科學(xué)家必看！處理小數(shù)據(jù)的7個技巧