中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

深度學(xué)習(xí)在CV領(lǐng)域已觸及天花板?

2019-07-23    來源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬Linux鏡像隨意使用

隨著深度學(xué)習(xí)研究的不斷深入,越來越多的領(lǐng)域應(yīng)用到了深度學(xué)習(xí)。但是,深度學(xué)習(xí)取得成功的同時(shí),也不可避免地遭受到越來越多的質(zhì)疑,特別是在CV領(lǐng)域。本文沒有對(duì)他人的觀點(diǎn)直接做出批判,而是從深度學(xué)習(xí)的本質(zhì)出發(fā),探討它的優(yōu)勢(shì)以及相關(guān)局限性,最后對(duì)深度學(xué)習(xí)可能的應(yīng)對(duì)方法和未來展開討論。本文作者為王子嘉,帝國理工學(xué)院人工智能碩士在讀。

1. 深度學(xué)習(xí)從未停止前進(jìn)

圖像數(shù)據(jù)的特征設(shè)計(jì),即特征描述,在過去一直是計(jì)算機(jī)視覺(Computer Vision, CV)頭痛的問題,而深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的興起使得這一領(lǐng)域不再需要很多的人為干預(yù),大大降低了對(duì)專業(yè)知識(shí)的需求(見下圖)。對(duì)應(yīng)的,圍繞著深度學(xué)習(xí)開始出現(xiàn)大量的炒作,這樣的炒作使得很多人開始對(duì)深度學(xué)習(xí)產(chǎn)生懷疑,但是同樣不得忽視的是深度學(xué)習(xí)在計(jì)算機(jī)視覺任務(wù)上已經(jīng)獲得的大量成功。

 

 

(圖源:https://trantorinc.com/blog/top-computer-vision-trends-2019/)

CNN 從 AlexNet 之后,新模型以肉眼可見的速度在增長,比較經(jīng)典的如 LeNet(1998)、AlexNet(2012)、ZF-net(2013)、GoogleNet(2014)、VGG(2014)、ResNet(2015);2014 年提出的 GAN 更是一個(gè)里程碑式的突破。但近年來,CV 領(lǐng)域雖然新論文不斷,但更多的是在填前人挖好的坑(改進(jìn)模型),比如 2018 的 BigGAN 以及今年的的 Mask Scoring RCNN 等,都沒有引起很大的轟動(dòng)。相比之下,NLP 繼 BERT 之后又出現(xiàn)了 XLNet,就顯得熱鬧的多。對(duì)應(yīng)的,對(duì)于 Deep Learning 在 CV 領(lǐng)域是否觸頂?shù)馁|(zhì)疑聲也開始變得更加強(qiáng)烈。

對(duì)此問題,本文不會(huì)做直接評(píng)判,而是首先簡單介紹什么是 Deep Learning,再介紹 Deep Learning 的優(yōu)勢(shì),然后介紹當(dāng)下較為主流的對(duì)于 Deep Learning 的批判,最后兩個(gè)部分會(huì)對(duì) Deep Learning 可能的應(yīng)對(duì)方法和未來展開討論。

1.1 什么是深度學(xué)習(xí)

想要了解什么是深度學(xué)習(xí),最簡單的方法莫過于打開一個(gè)深度學(xué)習(xí)課程或者入門書籍,看一下它的目錄,就大概了解深度學(xué)習(xí)包括什么了。本文引用 Lecun 在 2015 年曾經(jīng)給深度學(xué)習(xí)下過的定義——深度學(xué)習(xí)方法由多個(gè)層組成,用于學(xué)習(xí)具有多個(gè)等級(jí)的數(shù)據(jù)特征。所以有些學(xué)者也把深度學(xué)習(xí)叫做分級(jí)學(xué)習(xí)(Hierarchical Learning)。

如今的深度學(xué)習(xí)不只是本文在開頭提及的 Deep CNN,它還包括 Deep AE(AutoEncoder,如 Variational Autoencoders, Stacked Denoising Autoencoders, Transforming Autoencoders 等)、R-CNN(Region-based Convolutional Neural Networks,如 Fast R-CNN,F(xiàn)aster R-CNN,Mask R-CNN,Multi-Expert R-CNN 等)、Deep Residual Networks(如 Resnet,ResNeXt)、Capsule Networks、GAN(Generative Adversarial Network) 等,以及 RNN、LSTM 等處理用于處理序列類數(shù)據(jù)的 Recurrent 類模型。

1.2 深度學(xué)習(xí)的優(yōu)勢(shì)

深度學(xué)習(xí)之所以能在 CV 領(lǐng)域火起來,除了本文開頭提及的減少了特征提取的麻煩外,還有其他的優(yōu)勢(shì)。比如它是端到端模型;訓(xùn)練中的特征提取器,甚至于訓(xùn)練出的模型都可以用于其他任務(wù);它可以獲得相較于傳統(tǒng)方法更好的效果;同時(shí)它還是由極其簡單的組件組成的。本文將就這幾個(gè)優(yōu)勢(shì)分別進(jìn)行闡述。

自動(dòng)特征提取

計(jì)算機(jī)視覺領(lǐng)域的主要研究重點(diǎn)是從數(shù)字圖像中檢測(cè)和提取有用的特征。這些特征提供了圖像的大量信息,并且可以直接影響到最后任務(wù)的效果。因此過去出現(xiàn)了很多很優(yōu)秀的手動(dòng)的特征提取器,比如尺度不變特征變換(SIFT),Gabor 濾波器和定向梯度直方圖(HOG)等,它們也一直是特征提取的計(jì)算機(jī)視覺焦點(diǎn),并取得了很好的效果。

而深度學(xué)習(xí)的優(yōu)勢(shì)在于它做到了直接從大型圖像數(shù)據(jù)集中自動(dòng)學(xué)習(xí)復(fù)雜且有用的特征,可以從神經(jīng)網(wǎng)絡(luò)模型的提供的圖像中學(xué)習(xí)并自動(dòng)提取各種層次的特征。舉個(gè)很簡單的例子,當(dāng)把深度神經(jīng)網(wǎng)絡(luò)的每一層中提取到的特征畫出來,最底層可能提取的是輪廓類的特征,而最高層可能提取的就是最基本的線條類的特征。而現(xiàn)在各種比賽(如 ILSVRC)和標(biāo)準(zhǔn)集中從復(fù)雜的人工特征檢測(cè)器(如 SIFT)向深度卷積神經(jīng)網(wǎng)絡(luò)過渡就很好的證明深度學(xué)習(xí)網(wǎng)絡(luò)的確很好的解決了這一問題。

端到端(end-to-end)

端到端模型解決了 CV 中需要使用模塊的任務(wù)的問題。這類任務(wù)中每個(gè)模塊都是針對(duì)特定任務(wù)而設(shè)計(jì)的,例如特征提取,圖像對(duì)齊或分類任務(wù)。這些模塊都有自己的輸入輸出,模塊的一端是原始圖像,另一端就是這個(gè)模塊的輸出,當(dāng)然深度學(xué)習(xí)模型也可以作為這些模塊中的一部分。然后這些模塊組成一個(gè)整體,從而完成最后的任務(wù)。

但是深度學(xué)習(xí)模型自己也可以完成整個(gè)任務(wù)(端到端),它可以只使用一個(gè)模型,這個(gè)模型同時(shí)包含多個(gè)模塊(比如特征提取和分類),這樣使得其可以直接在原始圖像上訓(xùn)練并進(jìn)行圖像分類。這種端到端的方法也有取代傳統(tǒng)方法的趨勢(shì)。比如在物體檢測(cè)和人臉識(shí)別中,這種端到端的模型就會(huì)同時(shí)訓(xùn)練多個(gè)模塊的輸出(如類和邊界框)和新?lián)p失函數(shù)(如 contrastive 或 triplet loss functions)從而得到最終的模型。

模型遷移

深度神經(jīng)網(wǎng)絡(luò)一般會(huì)在比傳統(tǒng)數(shù)據(jù)集大得多的數(shù)據(jù)集(數(shù)百萬乃至數(shù)十億張圖片)上訓(xùn)練。這允許模型學(xué)習(xí)到所有照片的普遍特征和特征的層次結(jié)構(gòu)。這一點(diǎn)被很多人注意到,并提出了遷移學(xué)習(xí)的概念,這個(gè)概念也在一定程度上緩解了深度學(xué)習(xí)對(duì)數(shù)據(jù)的依賴。

更好的效果

深度學(xué)習(xí)帶給 CV 最大的好處就是它所具有的更好的性能。深度神經(jīng)網(wǎng)絡(luò)性能的顯著提高正是深度學(xué)習(xí)領(lǐng)域迅速發(fā)展的催化劑。比如前文提到的 Alex Net 就以 15.8% 的 top-5 錯(cuò)誤率獲得了 2012 年 ILSVRC 的冠軍,而當(dāng)年的第二名卻有 26.2% 的錯(cuò)誤率。而這些模型也很快應(yīng)用在 CV 的各個(gè)領(lǐng)域,并解決了很多曾經(jīng)很難解決的問題

簡單的組件

我們可以發(fā)現(xiàn) CV 領(lǐng)域里大部分優(yōu)秀的深度學(xué)習(xí)網(wǎng)絡(luò)都是基于相同的元素——卷積層和 Pooling 層,并將這些元素進(jìn)行不同的組合。卷積網(wǎng)絡(luò)是一種專門處理網(wǎng)格結(jié)構(gòu)數(shù)據(jù)的網(wǎng)絡(luò),并可以將這些模型進(jìn)行擴(kuò)展。目前看來,這種方法已經(jīng)在二維圖像上取得了不小的成功。

2. 深度學(xué)習(xí)的局限性

盡管深度學(xué)習(xí)有很多優(yōu)勢(shì),也取得了不小的成績,但是也有很多局限性導(dǎo)致其在前幾年的飛速發(fā)展后似乎進(jìn)入了一個(gè)瓶頸期。Gary Marcus 曾經(jīng)說過,深度學(xué)習(xí)是貪婪,脆弱,不透明和淺薄的。這些系統(tǒng)很貪婪,因?yàn)樗鼈冃枰罅康挠?xùn)練數(shù)據(jù);它們是脆弱的,因?yàn)楫?dāng)神經(jīng)網(wǎng)絡(luò)應(yīng)用在一些不熟悉的場景時(shí),面對(duì)與訓(xùn)練中使用的示例不同的場景,它并不能很好的完成任務(wù);它們是不透明的,因?yàn)榕c傳統(tǒng)的可調(diào)試代碼不同,神經(jīng)網(wǎng)絡(luò)的參數(shù)只能根據(jù)它們?cè)跀?shù)學(xué)中的權(quán)重來解釋,因此,它們是黑盒子,其輸出很難解釋;它們是淺薄的,因?yàn)樗鼈兊挠?xùn)練缺乏先天知識(shí),對(duì)世界沒有常識(shí)。

貪婪

前文中提到過深度學(xué)習(xí)的一大優(yōu)勢(shì)就是當(dāng)你給你的網(wǎng)絡(luò)更多的數(shù)據(jù)時(shí),相應(yīng)的你也會(huì)獲得更好的結(jié)果。但是如果把這句話反過來說,這個(gè)優(yōu)勢(shì)就變成了問題——想要獲得更好的結(jié)果,你就需要大量的標(biāo)注數(shù)據(jù)。

脆弱

當(dāng)下的深度學(xué)習(xí)網(wǎng)絡(luò)在做分類的時(shí)候,很難輸出一個(gè)百分百肯定的結(jié)果,這也就意味著網(wǎng)絡(luò)并沒有完全理解這些圖片,只能通過各種特征的組合來完成大概的預(yù)測(cè)。而不管我們用來訓(xùn)練的圖片庫有多大,都是有限的,從而有些圖片是沒有在我們的訓(xùn)練庫內(nèi)的(對(duì)抗樣本),這些圖片很可能跟我們已有的圖片具有極其類似的特征,從而出現(xiàn)下圖中將對(duì)抗樣本完全分錯(cuò)類的情況。

 

 

(圖源:[3])

可以想象,一輛自動(dòng)駕駛汽車可以行駛數(shù)百萬英里,但它最終會(huì)遇到一些沒有經(jīng)驗(yàn)的新事物;一個(gè)機(jī)器人可以學(xué)會(huì)拿起一個(gè)瓶子,但如果讓他拿起一個(gè)杯子,它就得從頭學(xué)起。

同時(shí),當(dāng)在圖片中摻雜一些人類不可見的噪音,或是對(duì)背景進(jìn)行一些改變,都可能會(huì)讓模型的預(yù)測(cè)出錯(cuò)。下圖就是一個(gè)改變背景的例子,從下圖可以看出,當(dāng)背景物品從自行車變?yōu)榧螅@只猴子被預(yù)測(cè)成了一個(gè)人,這大概是因?yàn)槟P驮谟?xùn)練的時(shí)候認(rèn)為人比猴子要更可能有一把吉他。

 

 

(圖源:https://thegradient.pub/the-limitations-of-visual-deep-learning-and-how-we-might-fix-them/)

最后,深度學(xué)習(xí)大多是基于卷積的,卷積可以很好的處理二維圖像,但是對(duì)三維圖像的處理效果卻不甚理想。

不透明

深度學(xué)習(xí)說到底還是一個(gè)數(shù)學(xué)模型,雖然本源是來自于人類的大腦的工作機(jī)制,但是還是無法真的理解這個(gè)模型的各個(gè)參數(shù)的含義,從而導(dǎo)致整個(gè)深度學(xué)習(xí)網(wǎng)絡(luò)成為了一個(gè)黑盒模型,除了一些超參以外,很難進(jìn)行內(nèi)部的調(diào)參。

淺薄

當(dāng)下的深度學(xué)習(xí)網(wǎng)絡(luò)大部分傾向于表征學(xué)習(xí),而非真正的智能,很依賴于其訓(xùn)練數(shù)據(jù),很難從有限的數(shù)據(jù)中學(xué)習(xí)到全局的東西;同時(shí)在一些不斷變化的情景下,這些網(wǎng)絡(luò)也很難有很好的表現(xiàn)。換句話說,這些網(wǎng)絡(luò)缺少「創(chuàng)造力」和「想象力」。

3. 深度學(xué)習(xí)的應(yīng)對(duì)

仔細(xì)觀察上述缺點(diǎn)的話,不難發(fā)現(xiàn)深度學(xué)習(xí)目前能解決的就是數(shù)據(jù)的問題,而至于其「智能」的問題,可能需要一個(gè)新的框架來實(shí)現(xiàn)了。本文剩下的部分主要陳述深度學(xué)習(xí)為了解決上述缺陷而興起的部分領(lǐng)域,以及這些領(lǐng)域較新的論文與進(jìn)展。

數(shù)據(jù)合成

為了解決數(shù)據(jù)問題,最簡單也最直接的方法就是合成更多的數(shù)據(jù)。在過去的一年中,數(shù)據(jù)合成一直是計(jì)算機(jī)視覺研究的一個(gè)巨大趨勢(shì)。它們由人工生成,可以用來訓(xùn)練深度學(xué)習(xí)模型。例如,SUNCG 數(shù)據(jù)集可以用于模擬室內(nèi)環(huán)境,Cityscapes 數(shù)據(jù)集用于駕駛和導(dǎo)航,合成人的 SURREAL 數(shù)據(jù)集用于學(xué)習(xí)姿勢(shì)估計(jì)和跟蹤。

除了這些數(shù)據(jù)集,還有一些論文也在就如何更好的使用合成數(shù)據(jù)以及如何更好的合成數(shù)據(jù)做出研究:

這篇聚焦于數(shù)據(jù)質(zhì)量的論文 [5] 在 Auto City 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),最終證明分割任務(wù)的效果確實(shí)與生成標(biāo)記所花費(fèi)的時(shí)間量密切相關(guān),但與每個(gè)標(biāo)簽的質(zhì)量無關(guān);[9] 使用了一個(gè)利用合成預(yù)想來訓(xùn)練的多任務(wù)深度網(wǎng)絡(luò),使得特征學(xué)習(xí)可以從不同的信息源中學(xué)習(xí),極大減少了標(biāo)注數(shù)據(jù)所需的時(shí)間;[13] 提出了一種基于合成數(shù)據(jù)訓(xùn)練的實(shí)物檢測(cè)系統(tǒng)。

遷移學(xué)習(xí)

遷移學(xué)習(xí)現(xiàn)在在 CV 領(lǐng)域很受歡迎,簡單的說,遷移學(xué)習(xí)就是在一個(gè)很大的數(shù)據(jù)庫上對(duì)模型進(jìn)行預(yù)訓(xùn)練,再將這個(gè)預(yù)訓(xùn)練過的模型用于其他任務(wù)上,有點(diǎn)類似于 NLP 中的 Word Embedding。

 

 

(圖源:https://trantorinc.com/blog/top-computer-vision-trends-2019/)

舉個(gè)例子,假設(shè)你有一個(gè)經(jīng)過訓(xùn)練的 ML 模型 A 來識(shí)別動(dòng)物的圖片,你可以用 A 來訓(xùn)練識(shí)別狗的圖片的模型 D。就數(shù)據(jù)而言,訓(xùn)練 D 需要向 A 添加一些額外的層,但是大大減少了訓(xùn)練 D 所需的數(shù)據(jù)量。

遷移學(xué)習(xí)是一個(gè)很大的領(lǐng)域,最近發(fā)表的與遷移學(xué)習(xí)相關(guān)的論文也很多,本文只挑選幾篇較新且已發(fā)表的的論文進(jìn)行簡單介紹:

[7] 中提出了基于不完整實(shí)例的對(duì)抗模仿學(xué)習(xí)——Action-Guided Adversarial Imitation Learning (AGAIL),它在基本的 GAN 中(Generator + Discriminator 的組合)加入了一個(gè) guide,從而達(dá)到從不完整實(shí)例中學(xué)習(xí)的目的;[8] 中提出了兩種提升 CNN 表征泛化度的方法,其中一種依賴于分類學(xué)知識(shí),另一種是利用微調(diào)進(jìn)行重訓(xùn)練,并提出了一種衡量遷移學(xué)習(xí)泛化度的集成方法;[14] 雖然還沒經(jīng)過 peer-review,但是其使用 GAN 進(jìn)行化妝遷移的想法很具有啟發(fā)性,不同于傳統(tǒng)的 GAN,本文使用了兩個(gè)編碼器,一個(gè)身份編碼器(identity encoder)和一個(gè)化妝風(fēng)格編碼器(Makeup encoder),并使用一個(gè)解碼器將兩個(gè)編碼器的輸出重建成人臉,最后還有一個(gè)鑒別器來鑒別人臉的真假。

3D 對(duì)象理解

前文說過,當(dāng)前的卷積層和 Pooling 層在二維數(shù)字圖像中有很好的應(yīng)用,但是 3D 對(duì)象理解對(duì)于深度學(xué)習(xí)系統(tǒng)成功解釋和現(xiàn)實(shí)世界導(dǎo)航至關(guān)重要。例如,網(wǎng)絡(luò)可能能夠在街道圖像中定位汽車,為其所有像素著色,并將其分類為汽車。但它是否真的了解圖像中的汽車相對(duì)于街道中的其他物體的位置?

為此深度學(xué)習(xí)專家們提出了可以準(zhǔn)確地表示物體在空間中的位置的點(diǎn)云(point cloud)。點(diǎn)云是 3D 空間中的一組數(shù)據(jù)點(diǎn)。簡單地說,物體表面上的每個(gè)點(diǎn)都有三維坐標(biāo)(X,Y,Z),稱為點(diǎn)云。其中,PointNet++ [4] 就是一種很好的利用點(diǎn)云的深度學(xué)習(xí)模型。

除了點(diǎn)云,[11] 延伸了 2017 年出現(xiàn)的 Mask R-CNN,提出一種 3D Mask R-CNN 架構(gòu),它使用時(shí)空卷積來提取特征并直接識(shí)別短片中的姿勢(shì)。完整的架構(gòu)如下所示。它在姿勢(shì)估計(jì)和人體追蹤方面實(shí)現(xiàn)了當(dāng)前最優(yōu)結(jié)果。

 

 

(圖源自論文)

[12] 提出了一種行人重識(shí)別(person re-identification)的新方法,這個(gè)問題一般是通過基于檢索的方法來解決的,即求導(dǎo)查詢圖像與來自某個(gè)嵌入空間的存儲(chǔ)圖像之間的相似度度量,而本文中的框架將姿勢(shì)信息直接嵌入到 CNN 中,并設(shè)計(jì)了一個(gè)新的無監(jiān)督重排序方法。完整的框架如下圖所示,其中 Baseline Architecture 使用的是 ResNet-50,同時(shí)一個(gè)簡單的 View Predictor 與 Baseline Architecture 一起提供了姿態(tài)信息作為后面的輸入。

 

 

(圖源自論文)

域適應(yīng)(Domain Adaptation)

嚴(yán)格來說,域適應(yīng)應(yīng)該也算遷移學(xué)習(xí)的一種,不過上文提到的遷移學(xué)習(xí)主要說的是樣本遷移。域適應(yīng)的目的其實(shí)跟數(shù)據(jù)合成類似,都是為了得到更多的有標(biāo)注數(shù)據(jù)。簡單來說,就是用任務(wù) A 的數(shù)據(jù)來為任務(wù) B 準(zhǔn)備數(shù)據(jù),或者說是將這個(gè)數(shù)據(jù)改造成適合任務(wù) B 的數(shù)據(jù)。

舉一個(gè)例子,利用相似性學(xué)習(xí)的無監(jiān)督域適應(yīng) [1] 使用對(duì)抗性網(wǎng)絡(luò)來處理域適應(yīng)。作者使用一個(gè)網(wǎng)絡(luò)從有標(biāo)記源中提取特征,又利用另一個(gè)網(wǎng)絡(luò)從未標(biāo)記的目標(biāo)域中提取特征,這些特征的數(shù)據(jù)分布相似但不同。為了標(biāo)記來自目標(biāo)域的圖像,作者將圖像的嵌入與來自源域的原型圖像的嵌入進(jìn)行比較,然后將最近鄰居的標(biāo)簽分配給它。另一個(gè)域適應(yīng)的例子是 [15],文中提出了一種圖像到圖像的轉(zhuǎn)換,主要用了 3 種主要技術(shù):(i)domain-agnostic feature extraction(無法區(qū)分領(lǐng)域的特征的提取),(ii)domain-specific reconstruction(嵌入可以被解碼回源域和目標(biāo)域),和(iii)cycle consistency(正確學(xué)習(xí)映射)。從根本上來說,這個(gè)方法的目的就是找到從源數(shù)據(jù)分布到目標(biāo)數(shù)據(jù)分布的映射結(jié)構(gòu)。

除了上面的例子,最近 [10] 也提出了一種利用 Bayesian 來做域適應(yīng)的方法。

 

 

(圖源:[1])

4. 總結(jié)

由本文可見,當(dāng)下深度學(xué)習(xí)有自己的優(yōu)勢(shì),也有一定的局限性,而深度學(xué)習(xí)專家們也在盡力解決這些局限性。對(duì)于深度學(xué)習(xí)的未來,我相信除了它自己的改進(jìn)外,它也會(huì)在一些新興領(lǐng)域如 NLP 與 CV 結(jié)合的產(chǎn)物——Visual Question Answering(VQA)中大放異彩。當(dāng)然,未來也很有可能會(huì)出現(xiàn)更加智能的模型來代替現(xiàn)在的深度學(xué)習(xí)模型。

References

[1] Pedro Oliveira Pinheiro. Unsupervised domain adaptation with similarity learning. CoRR, abs/1711.08995, 2017.

[2] Matiur Rahman Minar and Jibon Naher. Recent advances in deep learning: An overview. CoRR, abs/1807.08169, 2018. [3] Alan L. Yuille and Chenxi Liu. Deep nets: What have they ever done for vision? CoRR, abs/1805.04025, 2018.

[4] Charles Ruizhongtai Qi, Li Yi, Hao Su, and Leonidas J. Guibas. Pointnet++: Deep hierarchical feature learning on point sets in a metric space. CoRR, abs/1706.02413, 2017.

[5] Aleksandar Zlateski, Ronnachai Jaroensri, Prafull Sharma, and Fr´edo Durand. On the importance of label quality for semantic segmentation. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2018.

[6] Artidoro Pagnoni, Stefan Gramatovici, and Samuel Liu. PAC learning guarantees under covariate shift. CoRR, abs/1812.06393, 2018.

[7] Mingfei Sun and Xiaojuan Ma. Adversarial imitation learning from incomplete demonstrations. CoRR, abs/1905.12310, 2019.

[8] Y. Tamaazousti, H. Le Borgne, C. Hudelot, M. E. A. Seddik, and M. Tamaazousti. Learning more universal representations for transferlearning. IEEE Transactions on Pattern Analysis and Machine Intelligence, pages 1–1, 2019.

[9] Zhongzheng Ren and Yong Jae Lee. Cross-domain self-supervised multitask feature learning using synthetic imagery. CoRR, abs/1711.09082, 2017.

[10] Jun Wen, Nenggan Zheng, Junsong Yuan, Zhefeng Gong, and Changyou Chen. Bayesian uncertainty matching for unsupervised domain adaptation. CoRR, abs/1906.09693, 2019.

[11] Rohit Girdhar, Georgia Gkioxari, Lorenzo Torresani, Manohar Paluri, and Du Tran. Detect-and-track: Efficient pose estimation in videos. CoRR, abs/1712.09184, 2017.

[12] M. Saquib Sarfraz, Arne Schumann, Andreas Eberle, and Rainer Stiefelhagen. A pose-sensitive embedding for person re-identification with expanded cross neighborhood re-ranking. CoRR, abs/1711.10378, 2017.

[13] Jonathan Tremblay, Aayush Prakash, David Acuna, Mark Brophy, Varun Jampani, Cem Anil, Thang To, Eric Cameracci, Shaad Boochoon, and Stan Birchfield. Training deep networks with synthetic data: Bridging the reality gap by domain randomization. CoRR, abs/1804.06516, 2018.

[14] Honglun Zhang, , Wenqing Chen, Hao He, and Yaohui Jin. Disentangled makeup transfer with generative adversarial network. CoRR, abs/1804.06516, 2019.

[15] Zak Murez, Soheil Kolouri, David J. Kriegman, Ravi Ramamoorthi, and Kyungnam Kim. Image to image translation for domain adaptation. CoRR, abs/1712.00479, 2017.

標(biāo)簽: 深度學(xué)習(xí) 人工智能

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:解讀Apache Flink狀態(tài)生存時(shí)間特性:如何自動(dòng)清理應(yīng)用程序狀態(tài)?

下一篇:Spark和Hadoop的架構(gòu)區(qū)別解讀