中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

想做大數(shù)據(jù)可視化?來看騰訊高手的實戰(zhàn)案例!

2018-08-06    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用
導讀: AI(人工智能)技術(shù)已經(jīng)廣泛應(yīng)用于美團的眾多業(yè)務(wù),從美團App到大眾點評App,從外賣到打車出行,從旅游到婚慶親子,美團數(shù)百名最優(yōu)秀的算法工程師正致力于將AI技術(shù)應(yīng)用于搜索、推薦、廣告、風控、智能調(diào)度、語音識別、機器人、無人配送等多個領(lǐng)域,幫助美團數(shù)億消費者和數(shù)百萬商戶改善服務(wù)和體驗,幫大家吃得更好,生活更好。

基于AI技術(shù),美團搭建了世界上規(guī)模最大,復雜度最高的多人、多點實時智能配送調(diào)度系統(tǒng);基于AI技術(shù),美團推出了業(yè)內(nèi)第一款大規(guī)模落地的企業(yè)應(yīng)用級語音交互產(chǎn)品,為50萬騎手配備了智能語音系統(tǒng);基于AI技術(shù),美團構(gòu)建了世界上最大的菜品知識庫,為200多萬商家、3億多件商品繪制了知識圖譜,為數(shù)億用戶提供了精準的用戶畫像,并構(gòu)建了世界上用戶規(guī)模最大、復雜度最高的O2O智能推薦平臺。

美團這個全球最大生活服務(wù)互聯(lián)網(wǎng)平臺的“大腦”是怎么構(gòu)建的?《美團機器學習實踐》是一本全面講述互聯(lián)網(wǎng)機器學習實踐的圖書,本文選自書中第十五章。

背景

美團每天有百萬級的圖片產(chǎn)生量,運營人員負責相關(guān)圖片的內(nèi)容審核,對涉及法律風險及不符合平臺規(guī)定的圖片進行刪除操作。由于圖片數(shù)量巨大,人工審核耗時耗力且審核能力有限。另外對于不同審核人員來講,審核標準難以統(tǒng)一且實時變化。所以有必要借助機器實現(xiàn)智能審核。

圖像智能審核一般是指利用圖像處理與機器學習相關(guān)技術(shù)識別圖像內(nèi)容,進而甄別圖像是否違規(guī)。圖像智能審核旨在建立圖片自動審核服務(wù),由機器自動禁止不符合規(guī)定(負例)的圖片類型,自動通過符合規(guī)定(正例)的圖片類型,機器不確定的圖片交由人工審核。因此,衡量智能審核系統(tǒng)性能的指標主要是準確率和自動化率。

通常的自動審核思路是窮舉不符合規(guī)定的圖片(例如水印圖、涉黃圖、暴恐圖、明星臉、廣告圖等)類型,剩下的圖片作為正例自動通過。這樣帶來的問題是對新增的違規(guī)內(nèi)容擴展性不足,另外必須等待所有模型構(gòu)建完畢才能起到自動化過濾的作用。如果我們能主動挖掘符合規(guī)定的圖片(例如正常人物圖、場景一致圖)進行自動通過,將正例過濾和負例過濾相結(jié)合,這樣才能更快起到節(jié)省人工審核的作用。因此,我們的圖像智能審核系統(tǒng)分為圖片負例過濾模塊和圖片正例過濾模塊,待審圖片先進入負例過濾模塊判斷是否違禁,再進入正例過濾模塊進行自動通過,剩余機器不確定的圖片交由人工審核。整個技術(shù)方案如圖1所示。

 

 

圖1 圖像智能審核技術(shù)方案

負例過濾和正例過濾模塊中都會涉及檢測、分類和識別等技術(shù),而深度學習則是該領(lǐng)域的首選技術(shù)。下面將分別以水印過濾、明星臉識別、xxx圖片檢測和場景分類來介紹深度學習在圖像智能審核中的應(yīng)用。

基于深度學習的水印檢測

為了保護版權(quán)和支持原創(chuàng)內(nèi)容,需要自動檢測商家或用戶上傳的圖片中是否包括違禁水印(競對水印、其他產(chǎn)品的Logo)。與其他類剛體目標不同,水印具有以下特點:

樣式多。線下收集所涉及的主流違禁水印有20多類,每一類水印又存在多種樣式。除此之外,線上存在大量未知類型的水印。

主體多變。水印在圖片中位置不固定且較小,主體存在裁切變形,并且會存在多個主體交疊(多重水印),如圖2所示。

 

 

圖2 主體多變

背景復雜。由于主流水印大多采用透明或半透明方式,這使得水印中的文字標識極易受到復雜背景的干擾,如圖3所示。

 

 

圖3 背景復雜

傳統(tǒng)的水印檢測采用滑動窗口的方法,提取一個固定大小的圖像塊輸入到提前訓練好的鑒別模型中,得到該塊的一個類別。這樣遍歷圖片中的所有候選位置,可得到一個圖片密集的類別得分圖。得分高于一定閾值的塊被認為是水印候選區(qū)域,通過非極大化抑制可以得到最終的結(jié)果。

鑒別模型的特征可以采用文字識別領(lǐng)域常用的邊緣方向統(tǒng)計特征,也可以通過CNN進行特征學習來提升對裁切、形變、復雜背景的健壯性。為了進一步改善得分的置信度,可以加入類型原型的信息,把輸入圖像塊特征與聚類中心特征的相似度(夾角余弦)作為識別置信度。但上述方法檢測效率極低,由于水印位置和大小不固定,需要在所有位置對多個尺度的圖像進行判別,由此產(chǎn)生大量的冗余窗口。

一種思路是旨在減少滑動窗口數(shù)目的子窗口的方法。首先通過無監(jiān)督/有監(jiān)督學習生成一系列的候選區(qū)域,再通過一個CNN分類器來判斷區(qū)域中是否包含目標以及是哪一類目標。這類方法比較有代表的是R-CNN系列。由于該類方法得到的候選框可以映射到原圖分辨率,因此定位框精度足夠高。

另一種解決思路時采用直接在特征圖上回歸的方法。我們知道,對于CNN網(wǎng)絡(luò)的卷積層而言,輸入圖片大小可以不固定,但從全連接層之后就要求輸入大小保持一致。因此當把任意大小的圖片輸入CNN直到第一個全連接層,只需要一次前向運算就可以得到所有層的特征圖。然后回歸的對象是待檢測目標的位置信息和類別信息,它們可根據(jù)目標大小的需要在不同層次的特征圖上進行回歸,這類方法以Yolo、SSD為代表。該類方法的特點是在保證高檢測精度的前提下實時性較好。

圖4給出了上述兩類框架與DPM(可變形部件模型)最佳傳統(tǒng)方法的性能比較:

 

 

圖4 基于深度學習的主流目標檢測方法的性能評測

考慮到水印檢測任務(wù)對定位框的精度要求不高,且需要滿足每天百萬量級圖片的吞吐量,我們借鑒了SSD框架和Resnet網(wǎng)絡(luò)結(jié)構(gòu)。在訓練數(shù)據(jù)方面,我們通過人工收集了25類共計1.5萬張水印圖片,并通過主體隨機裁切、前背景合成等方式進行了數(shù)據(jù)增廣。

基于訓練得到的模型對線上數(shù)據(jù)進行了相關(guān)測試。隨機選取3197張線上圖片作為測試集,其中2795張圖片不包含水印,包含水印的402張圖片里有302張包含訓練集中出現(xiàn)過的水印,另外的100張包含未出現(xiàn)在訓練集中的小眾水印。基于該測試集,我們評測了傳統(tǒng)方法(人工設(shè)計特征+滑窗識別)和基于SSD框架的方法。

從圖5可以看到,相比于傳統(tǒng)方法,SSD框架無論在召回和精度上都有明顯優(yōu)勢。進一步分析發(fā)現(xiàn),深度學習方法召回了38張小眾水印圖片,可見CNN學習到的特征泛化能力更強。

 

 

圖5 水印檢測性能評測

明星臉識別

為了避免侵權(quán)明星肖像權(quán),審核場景需要鑒別用戶/商家上傳的圖像中是否包含明星的頭像。這是一類典型的人臉識別應(yīng)用,具體來說是一種1∶(N+1)的人臉比對。整個人臉識別流程包含人臉檢測、人臉關(guān)鍵點檢測、人臉矯正及歸一化、人臉特征提取和特征比對,如圖6所示。其中深度卷積模型是待訓練的識別模型,用于特征提取。下面我們將分別介紹人臉檢測和人臉識別技術(shù)方案。

 

 

圖6 明星臉識別流程

人臉檢測

人臉檢測方法可分為傳統(tǒng)檢測器和基于深度學習的檢測器兩類。

傳統(tǒng)檢測器主要基于V-J框架,通過設(shè)計Boosted的級連結(jié)構(gòu)和人工特征實現(xiàn)檢測。特征包括Harr特征、HOG特征和基于像素點比較的特征(Pico、NPD)等。

這類檢測器在約束環(huán)境下有著不錯的檢測效果和運行速度,但對于復雜場景(光照、表情、遮擋),人工設(shè)計的特征使檢測能力會大大下降。為了提升性能,相關(guān)研究聯(lián)合人臉檢測和人臉關(guān)鍵點定位這兩個任務(wù)進行聯(lián)合優(yōu)化(JDA),將關(guān)鍵點檢測作為人臉檢測的一個重要評價標準,但其準確率有待進一步提升。

深度學習的檢測器有三種思路。

第一類是沿用V-J框架,但以級聯(lián)CNN網(wǎng)絡(luò)(Cascaded CNN)替代傳統(tǒng)特征。

第二類是基于候選區(qū)域和邊框回歸的框架(如Faster R-CNN)。

第三類是基于全卷積網(wǎng)絡(luò)直接回歸的框架(如DenseBox)。

我們采用了Faster R-CNN框架并從以下方面進行了改進: 難分負例挖掘(抑制人物雕像、畫像和動物頭像等負例)、多層特征融合、 多尺度訓練和測試、上下文信息融合,從而更好地抵抗復雜背景、類人臉、遮擋等干擾,并有效提升了對小臉、側(cè)臉的檢出率。

人臉識別

人臉識別主要有兩種思路。一種是直接轉(zhuǎn)換為圖像分類任務(wù),每一類對應(yīng)一個人的多張照片,比較有代表性的方法有DeepFace、DeepID等。另一種則將識別轉(zhuǎn)換為度量學習問題,通過特征學習使得來自同一個人的不同照片距離比較近、不同的人的照片距離比較遠,比較有代表性的方法有DeepID2、FaceNet等。

由于任務(wù)中待識別ID是半封閉集合,我們可以融合圖像分類和度量學習的思路進行模型訓練?紤]到三元組損失(Triplet Loss)對負例挖掘算法的要求很高,在實際訓練中收斂很慢,因此我們采用了Center Loss來最小化類內(nèi)方差,同時聯(lián)合Softmax Loss來最大化類間方差。為了平衡這兩個損失函數(shù),需要通過試驗來選擇超參數(shù)。我們采用的網(wǎng)絡(luò)結(jié)構(gòu)是Inception-v3,在實際訓練中分為兩個階段:

第一階段采用Softmax Loss+C×CenterLoss,并利用公開數(shù)據(jù)集CASIA-WebFace(共包含10 575個ID和49萬人臉圖片)來進行網(wǎng)絡(luò)參數(shù)的初始化和超參數(shù)C的優(yōu)選,根據(jù)試驗得到的C=0.01;

第二階段采用Softmax Loss+0.01×Center Loss,并在業(yè)務(wù)數(shù)據(jù)(5200個明星臉I(yè)D和100萬人臉圖片)上進行網(wǎng)絡(luò)參數(shù)的微調(diào)。

為了進一步提升性能,借鑒了百度采用的多模型集成策略,如圖7所示。具體來說,根據(jù)人臉關(guān)鍵點的位置把人臉區(qū)域分割為多個區(qū)域,針對每一個區(qū)域分別訓練特征模型。目前把人臉區(qū)域分割為9個區(qū)域,加上人臉整體區(qū)域,共需訓練10個模型。

 

 

圖7 基于集成學習的人臉識別

在測試階段,對于待驗證的人臉區(qū)域和候選人臉區(qū)域,分別基于圖7所示的10個區(qū)域提取特征。然后對于每個區(qū)域,計算兩個特征向量間的相似度(余弦距離)。最終通過相似度加權(quán)的方法判斷兩張人臉是否屬于同一個人。表1給出了主流方法在LFW數(shù)據(jù)集上的評測結(jié)果?梢钥闯,美團模型在相對有限數(shù)據(jù)下獲得了較高的準確率。

 

 

表1 公開數(shù)據(jù)集評測結(jié)果

xxx圖片檢測

xxx圖片檢測是圖像智能審核中重要環(huán)節(jié)。傳統(tǒng)檢測方法通過膚色、姿態(tài)等維度對圖片的合規(guī)性進行鑒別。隨著深度學習的進展,現(xiàn)有技術(shù)雅虎NSFW(Not Suitable for Work)模型直接把xxx圖片檢測定義二分類(xxx、正常)問題,通過卷積神經(jīng)網(wǎng)絡(luò)在海量數(shù)據(jù)上進行端到端訓練。

對于已訓練模型,不同層次學習到的特征不同,有些層次學到了膚色特征,另外一些層次學習到了部位輪廓特征,還有的層次學到了姿態(tài)特征。但由于人類對xxx的定義非常廣泛,露點、性暗示、藝術(shù)等都可能被歸為xxx類,而且在不同的場景下或者面對不同的人群,xxx定義標準無法統(tǒng)一。因此,初始學習到的模型泛化能力有限。為了提升機器的預測準確率,需要不斷加入錯分樣本,讓機器通過增量學習到更多特征以糾正錯誤。除此之外,我們在以下方面進行了優(yōu)化。

模型細化。我們的分類模型精細化了圖片的xxx程度:xxx、性感、正常人物圖、其他類。其中xxx、性感、正常人物圖互為難分類別,其他類為非人物的正常圖片。將性感類別和正常人物圖類別從xxx類別中分離出來有助于增強模型對xxx的判別能力。從表2中可見,相對于雅虎的NSFW模型,我們的模型在召回率方面具有明顯優(yōu)勢。

 

 

表2 xxx圖片檢測準確率

機器審核結(jié)合人工復審。在實際業(yè)務(wù)中由于涉黃檢測采用預警機制,機器審核環(huán)節(jié)需要盡可能召回所有疑似圖片,再結(jié)合適量的人工審核來提升準確率。因此,上層業(yè)務(wù)邏輯會根據(jù)模型預測類別和置信度將圖片劃分為“確定黃圖”“確定非黃圖”和“疑似”三部分。“疑似”部分,根據(jù)置信度由高到底進行排序,并轉(zhuǎn)交人工復審。在線上業(yè)務(wù)中,“確定黃圖”和“確定非黃圖”部分的精度可達到99%以上,而“疑似”部分只占總圖片量的3%左右,這樣在保證高精度過濾的條件下可大幅節(jié)省人力。

支持視頻內(nèi)容審核。對于短視頻內(nèi)容的審核,我們通過提取關(guān)鍵幀的方式轉(zhuǎn)化為對單張圖片的審核,然后融合多幀的識別結(jié)果給出結(jié)論。

場景分類

作為一個貫穿吃喝玩樂各環(huán)節(jié)的互聯(lián)網(wǎng)平臺,美團的業(yè)務(wù)涉及多種垂直領(lǐng)域,如表3所示。有必要對運營或用戶上傳圖片的品類進行識別,以保持與該商家的經(jīng)營范圍一致。此外,為了進一步改善展示效果,需要對商家相冊內(nèi)的圖片進行歸類整理,如圖8所示。

 

 

表3 美團一級品類及圖片占比

 

 

圖8 商家相冊圖片分類

深度卷積神經(jīng)網(wǎng)絡(luò)在圖像分類的相關(guān)任務(wù)上(比如ILSVRC)上已經(jīng)超越人眼的識別率,但作為一種典型的監(jiān)督學習方法,它對特定領(lǐng)域的標記樣本的數(shù)量和質(zhì)量的需求是突出的。我們的場景分類任務(wù),如果完全依靠審核人員進行圖片的篩選和清洗,代價較大。因此需要基于遷移學習來對模型進行微調(diào)。

遷移學習致力于通過保持和利用從一個或多個相似的任務(wù)、領(lǐng)域或概率分布中學習到的知識,來快速并有效地為提升目標任務(wù)的性能。模型遷移是遷移學習領(lǐng)域中一類常用的遷移方式,它通過學習原始域(Source Domain)模型和目標域(Target Domain)模型的共享參數(shù)來實現(xiàn)遷移。由于深度神經(jīng)網(wǎng)絡(luò)具有層次結(jié)構(gòu),且其隱藏層能表示抽象和不變性的特征,因此它非常適合模型遷移。

至于原始域訓練的深度卷積神經(jīng)網(wǎng)絡(luò),需要關(guān)注哪些層次的參數(shù)可以遷移以及如何遷移。不同層次的可遷移度不同,目標域與原始域中相似度較高的層次被遷移的可能性更大。具體而言,較淺的卷積層學習到的特征更通用(比如圖像的色彩、邊緣、基本紋理),因而也更適合遷移,較深的卷積層學習的特征更具有任務(wù)依賴性(比如圖像細節(jié)),因而不適合遷移,如圖9所示。

 

 

圖9 深度卷積神經(jīng)網(wǎng)絡(luò)的層次結(jié)構(gòu)與特征描述

模型遷移通過固定網(wǎng)絡(luò)特定層次的參數(shù),用目標域的數(shù)據(jù)來訓練其他層次。對于我們的場景分類任務(wù)而言,首先根據(jù)分類的類別數(shù)修改網(wǎng)絡(luò)輸出層,接著固定較淺的卷積層而基于業(yè)務(wù)標注數(shù)據(jù)訓練網(wǎng)絡(luò)倒數(shù)若干層參數(shù)。如有更多的訓練數(shù)據(jù)可用,還可以進一步微調(diào)整個網(wǎng)絡(luò)的參數(shù)以獲得額外的性能提升,如圖10所示。

相比于直接提取圖像的高層語義特征來進行監(jiān)督學習,采用分階段的參數(shù)遷移對原始域與目標域間的差異性更健壯。

 

 

圖10 基于深度卷積神經(jīng)網(wǎng)絡(luò)的模型遷移

基于上述遷移學習策略,我們在美食場景圖和酒店房型圖分類中進行了相關(guān)實驗,基于有限(萬級別圖片)的標注樣本實現(xiàn)了較高的識別準確率,測試集上的性能如表4所示。

 

 

表4 美食場景分類

如前所述,基于深度學習的圖像分類與檢測方法在圖片智能審核中替代了傳統(tǒng)機器學習方法,在公開模型與遷移學習的基礎(chǔ)上,通過從海量數(shù)據(jù)中的持續(xù)學習,實現(xiàn)了業(yè)務(wù)場景落地。

參考文獻

[1]H. Chen, S. S. Tsai, G. Schroth, D. M. Chen, R. Grzeszczuk, and B. Girod. “Robust text detection in natural images with edge-enhanced maximally stable extremal regions.” ICIP 2011.

[2]Z Zhong,LJin,SZhang,ZFeng.“DeepText: A Unified Framework for Text Proposal Generation and Text Detection in Natural Images”. Architecture Science 2015.

[3]Minghui Liao, Baoguang Shi, Xiang Bai, Xinggang Wang, Wenyu Liu. “TextBoxes: A Fast Text Detector with a Single Deep Neural Network”. AAAI 2017.

[4]S. Ren, K. He, R. Girshick, and J. Sun. Faster r-cnn.“Towards real-time object detection with region proposal networks.” NIPS 2015.

[5]Graves, A.; Fernandez, S.; Gomez, F.; and Schmidhuber, J. “Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural networks.” ICML 2006.

[6]R Girshick,JDonahue,TDarrell,JMalik. “Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation.” CVPR 2014.

[7]J. Redmon, S. Divvala, R. Girshick, and A. Farhadi. “You only look once: Unified, real-time object detection”. CVPR 2016.

[8]W. Liu, D. Anguelov, D. Erhan, C. Szegedy, and S. Reed. “SSD: Single shot multibox detector”. ECCV 2016.

[9] “Object detection with discriminatively trained part-based models”. TPAMI 2010.

[10]Robust Real-time Object Detection. Paul Viola, Michael Jones. IJCV 2004.

[11]N. Markus, M. Frljak, I. S. Pandzic, J. Ahlberg and R. Forchheimer. “Object Detection with Pixel Intensity Comparisons Organized in Decision Trees”. CoRR 2014.

[12]Shengcai Liao, Anil K. Jain, and Stan Z. Li. “A Fast and Accurate Unconstrained Face Detector,” TPAMI 2015.

[13]Dong Chen, ShaoQingRen, Jian Sun. “Joint Cascade Face Detection and Alignment”, ECCV 2014.

[14]Haoxiang Li, Zhe Lin, XiaohuiShen, Jonathan Brandt, Gang Hua. “A convolutional neural network cascade for face detection”, CVPR.2015.

[15]Lichao Huang, Yi Yang, Yafeng Deng, Yinan Yu.“DenseBox: Unifying Landmark Localization with End to End Object Detection” CVPR 2015.

[16]Taigman Y, Yang M, Ranzato M A, et al. Deepface: Closing the gap to human-level performance in face verification.CVPR 2014.

[17]Sun Y, Wang X, Tang X. Deep learning face representation from predicting 10,000 classes.CVPR 2014.

[18]Sun Y, Chen Y, Wang X, et al. Deep learning face representation by joint identification-verification.NIPS. 2014.

[19]FaceNet: A Unified Embedding for Face Recognition and Clustering. CVPR 2015.

[20]A Discriminative Feature Learning Approach for Deep Face Recognition. ECCV 2016.

[21]Rethinking the Inception Architecture for Computer Vision. CVPR 2016.

[22]Alex Krizhevsky, IlyaSutskever, Geoffrey E. Hinton. “ImageNet Classification with Deep Convolutional Neural Networks”. 2014.

[23]Murray, N., Marchesotti, L., Perronnin, F. “Ava: A large-scale database for aesthetic visual analysis”. CVPR 2012.

【編輯推薦】

標簽: O2O ssd 互聯(lián)網(wǎng) 互聯(lián)網(wǎng)平臺 評測 搜索 網(wǎng)絡(luò)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:Python那么火,到底可以用來做什么?

下一篇:從混沌到賦能,大數(shù)據(jù)如何影響世界?