中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

騰訊AI Lab詳解3大熱點(diǎn):模型壓縮、機(jī)器學(xué)習(xí)及最優(yōu)化算法

2018-12-21    來(lái)源:raincent

容器云強(qiáng)勢(shì)上線(xiàn)!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

NeurIPS (Conference on Neural Information Processing Systems,神經(jīng)信息處理系統(tǒng)進(jìn)展大會(huì))與ICML并稱(chēng)為神經(jīng)計(jì)算和機(jī)器學(xué)習(xí)領(lǐng)域兩大頂級(jí)學(xué)術(shù)會(huì)議。今年為第32屆會(huì)議,將于 12月3日至8日在加拿大蒙特利爾舉辦。騰訊AI Lab第三次參加NeurIPS,共20篇論文入選,位居國(guó)內(nèi)企業(yè)前列。

騰訊AI Lab對(duì)會(huì)議的三大熱點(diǎn)——模型壓縮、自動(dòng)機(jī)器學(xué)習(xí)、機(jī)器學(xué)習(xí)及最優(yōu)化算法相關(guān)的23篇論文進(jìn)行了解讀。

模型壓縮

Model Compression

模型壓縮是近期深度學(xué)習(xí)領(lǐng)域中一個(gè)較為熱門(mén)的研究方向,通過(guò)對(duì)模型的網(wǎng)絡(luò)結(jié)構(gòu)或者權(quán)重表示方式進(jìn)行簡(jiǎn)化,在精度損失可控的前提下,降低模型的計(jì)算復(fù)雜度和參數(shù)規(guī)模,以解決深度學(xué)習(xí)模型計(jì)算效率較低的問(wèn)題。粗略統(tǒng)計(jì),本屆NIPS有15-20篇模型壓縮相關(guān)論文,涵蓋了網(wǎng)絡(luò)剪枝、權(quán)重量化、知識(shí)蒸餾、精簡(jiǎn)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)等多個(gè)方面。

這次會(huì)議的研究中體現(xiàn)出四大特點(diǎn):一、多種權(quán)重量化算法被提出,同時(shí)相應(yīng)的訓(xùn)練算法與理論分析也有較多討論;二、遷移學(xué)習(xí)與知識(shí)蒸餾的結(jié)合;三、新型精簡(jiǎn)網(wǎng)絡(luò)結(jié)構(gòu)的不斷涌現(xiàn);四、模型壓縮的應(yīng)用推廣至目標(biāo)檢測(cè)、自然語(yǔ)言理解等領(lǐng)域。另外,“精簡(jiǎn)深度神經(jīng)網(wǎng)絡(luò)及其產(chǎn)業(yè)界應(yīng)用”研討會(huì)(Workshop)環(huán)節(jié)集中探討了近期模型壓縮方向的研究成果以及在實(shí)際場(chǎng)景中的應(yīng)用。我們重點(diǎn)關(guān)注了以下文章:

1. 基于敏感度正則化的稀疏神經(jīng)網(wǎng)絡(luò)訓(xùn)練

Learning Sparse Neural Networks via Sensitivity-Driven Regularization

https://nips.cc/Conferences/2018/Schedule?showEvent=11386

本文由都靈理工大學(xué)、Nuance Communications公司、巴黎高等電信學(xué)院和意大利電信集團(tuán)合作完成。深度神經(jīng)網(wǎng)絡(luò)中的海量參數(shù)使得其難以應(yīng)用到內(nèi)存有限的場(chǎng)景中,而正則化加剪枝的訓(xùn)練方式可以使得網(wǎng)絡(luò)權(quán)重變得稀疏,以解決這一問(wèn)題。本文對(duì)網(wǎng)絡(luò)最終輸出相對(duì)于網(wǎng)絡(luò)權(quán)重的敏感度進(jìn)行量化分析,并引入了一個(gè)正則化項(xiàng),以逐步減小低敏感度的網(wǎng)絡(luò)權(quán)重的絕對(duì)值。基于該算法,大量的網(wǎng)絡(luò)權(quán)重會(huì)逐步收斂為零,從而可以被安全地從網(wǎng)絡(luò)模型中刪去。 實(shí)驗(yàn)結(jié)果表明,該算法在權(quán)重稀疏度和模型預(yù)測(cè)精度方面都超過(guò)了現(xiàn)有算法;在部分?jǐn)?shù)據(jù)集上,當(dāng)模型預(yù)測(cè)精度相同時(shí),該算法可以將權(quán)重稀疏度提升至現(xiàn)有算法的兩倍。

 

 

2. 一種高可擴(kuò)展性的8比特神經(jīng)網(wǎng)絡(luò)訓(xùn)練算法

Scalable Methods for 8-bit Training of Neural Networks

https://nips.cc/Conferences/2018/Schedule?showEvent=11503

本文由Intel和以色列理工學(xué)院合作完成。對(duì)訓(xùn)練完畢的網(wǎng)絡(luò)模型進(jìn)行定點(diǎn)量化可以提升模型在推理過(guò)程中的計(jì)算效率,但是對(duì)于如何確定最優(yōu)的量化比特?cái)?shù)以及量化方案尚無(wú)定論。本文首先通過(guò)理論分析指出,在網(wǎng)絡(luò)訓(xùn)練過(guò)程中,除部分特定的操作外,大部分操作對(duì)于模型權(quán)重精度的下降并不敏感;谶@一結(jié)論,本文提出對(duì)模型權(quán)重、各層特征圖以及梯度信號(hào)進(jìn)行量化,并且維護(hù)了兩個(gè)量化精度不同的梯度信號(hào),在不損失精度的情況下最大程度地提升計(jì)算效率。同時(shí),由于batch normalization層對(duì)于量化精度要求更高,本文提出了Range BN層以提升對(duì)量化誤差的容忍度。實(shí)驗(yàn)結(jié)果表明,在ImageNet-1K數(shù)據(jù)集上,本文對(duì)模型權(quán)重、各層特征圖以及梯度信號(hào)進(jìn)行8比特量化,量化后模型達(dá)到了目前最好的預(yù)測(cè)精度。

 

 

3. 判別力最大化的通道剪枝算法在深度神經(jīng)網(wǎng)絡(luò)中的應(yīng)用

Discrimination-aware Channel Pruning for Deep Neural Networks

https://nips.cc/Conferences/2018/Schedule?showEvent=11109

本文由華南理工大學(xué)、阿德萊德大學(xué)、德州大學(xué)阿靈頓分校和騰訊AI Lab合作完成。現(xiàn)有的通道剪枝算法大多基于稀疏約束進(jìn)行重新訓(xùn)練,或者基于預(yù)訓(xùn)練模型進(jìn)行剪枝后模型的重構(gòu)誤差最小化,存在訓(xùn)練困難,忽視模型判別力等問(wèn)題。本文提出了一種判別力最大化的通道剪枝算法,以篩選和保留模型中真正對(duì)判別力有貢獻(xiàn)的通道。為實(shí)現(xiàn)這一目標(biāo),作者引入了額外的判別力損失項(xiàng),以提高網(wǎng)絡(luò)中間各層的判別力,再基于判別力損失項(xiàng)和重構(gòu)誤差項(xiàng)進(jìn)行各層的通道選擇。實(shí)驗(yàn)表明,在ILSVRC-12數(shù)據(jù)集上,基于該算法剪枝后的ResNet-50模型可以在刪去30%通道的情況下,top-1分類(lèi)精度比基準(zhǔn)模型高0.39%。

 

 

4. 釋義復(fù)雜模型:基于因子遷移學(xué)習(xí)的網(wǎng)絡(luò)壓縮

Paraphrasing Complex Network:Network Compression via Factor Transfer

https://nips.cc/Conferences/2018/Schedule?showEvent=11283

本文由國(guó)立首爾大學(xué)完成。本文提出了一種新的知識(shí)蒸餾訓(xùn)練算法,通過(guò)引入額外的卷積層,對(duì)參考模型的信息進(jìn)行解釋與重新組織,從而更好地指導(dǎo)目標(biāo)模型的訓(xùn)練。這一過(guò)程由兩個(gè)卷積模塊共同完成,分別被稱(chēng)為釋義器(paraphraser)和翻譯器(translator)。釋義器以無(wú)監(jiān)督的方式進(jìn)行訓(xùn)練,以提取參考模型中的有效信息;翻譯器則位于目標(biāo)模型中,用于將目標(biāo)模型中的對(duì)應(yīng)信息進(jìn)行變換,以擬合參考模型的釋義器所輸出的信息。實(shí)驗(yàn)結(jié)果表明,基于該算法訓(xùn)練得到的目標(biāo)模型,在多個(gè)數(shù)據(jù)集上的圖像分類(lèi)和目標(biāo)檢測(cè)任務(wù)上,都取得了超過(guò)已有知識(shí)蒸餾算法的訓(xùn)練效果。

 

 

5. Moonshine:基于精簡(jiǎn)卷積操作的知識(shí)蒸餾

Moonshine:Distilling with Cheap Convolutions

https://nips.cc/Conferences/2018/Schedule?showEvent=11295

本文由愛(ài)丁堡大學(xué)完成。本文提出了一種結(jié)構(gòu)化的模型蒸餾算法以降低模型運(yùn)行過(guò)程中的內(nèi)存開(kāi)銷(xiāo)。具體地,基于預(yù)定義的參考模型的網(wǎng)絡(luò)結(jié)構(gòu),經(jīng)過(guò)簡(jiǎn)單的結(jié)構(gòu)變換,可以得到目標(biāo)模型的網(wǎng)絡(luò)結(jié)構(gòu),從而避免了重新設(shè)計(jì)目標(biāo)模型的網(wǎng)絡(luò)結(jié)構(gòu),同時(shí)也可以直接復(fù)用參考模型的超參數(shù)設(shè)定。以殘差模型為例,通過(guò)對(duì)殘差單元中的兩個(gè)3x3卷積層進(jìn)行變換,以分組卷積+跨組混合卷積的結(jié)構(gòu)作為替代,可以顯著降低模型的計(jì)算復(fù)雜度。變換后得到的目標(biāo)模型可以基于知識(shí)蒸餾和注意力遷移學(xué)習(xí)算法進(jìn)行訓(xùn)練。實(shí)驗(yàn)結(jié)果表明,該算法可以以極低的精度損失,大幅度降低內(nèi)存開(kāi)銷(xiāo);同時(shí),相比于直接訓(xùn)練目標(biāo)模型,知識(shí)蒸餾訓(xùn)練機(jī)制的引入可以明顯提升目標(biāo)模型的預(yù)測(cè)精度。

 

 

6. 基于在線(xiàn)自我集成的知識(shí)蒸餾

Knowledge Distillation by On-the-Fly Native Ensemble

https://nips.cc/Conferences/2018/Schedule?showEvent=11723

本文由倫敦瑪麗女王大學(xué)和Vision Semantics公司合作完成。知識(shí)蒸餾常被用于訓(xùn)練低復(fù)雜度、高泛化能力的模型,但是離線(xiàn)知識(shí)蒸餾算法往往需要一個(gè)高精度的預(yù)訓(xùn)練模型作為參考,并且訓(xùn)練過(guò)程需要分為兩個(gè)階段進(jìn)行,而在線(xiàn)知識(shí)蒸餾算法不能有效地構(gòu)造一個(gè)高精度的參考模型。本文提出了一種在線(xiàn)自我集成的知識(shí)蒸餾算法,以實(shí)現(xiàn)單階段的在線(xiàn)蒸餾。具體地,該算法訓(xùn)練了一個(gè)多分支的網(wǎng)絡(luò),在線(xiàn)地構(gòu)造參考模型以提升目標(biāo)模型的預(yù)測(cè)精度。實(shí)驗(yàn)結(jié)果表明,該算法在多個(gè)數(shù)據(jù)集上,對(duì)于各種網(wǎng)絡(luò)結(jié)構(gòu)均取得了一致的性能提升,同時(shí)訓(xùn)練效率更高。

7. ChannelNet:基于逐通道卷積的高效卷積神經(jīng)網(wǎng)絡(luò)

ChannelNets:Compact and Efficient Convolutional Neural Networks via Channel-Wise Convolutions

https://nips.cc/Conferences/2018/Schedule?showEvent=11508

本文由德克薩斯A&M大學(xué)完成。本文提出了一種逐通道卷積操作,以取代CNN模型中特征圖之間的稠密連接關(guān)系。基于這一逐通道卷積操作,作者提出了ChannelNet這一輕量級(jí)的網(wǎng)絡(luò)結(jié)構(gòu)。ChannelNet中采用了三個(gè)類(lèi)型的逐通道卷積操作,分別是:分組逐通道卷積、深度可分逐通道卷積以及全卷積分類(lèi)層。與之前常用于移動(dòng)端的CNN模型(包括SqueezeNet、MobileNet和ShuffleNet)相比,ChannelNet在性能無(wú)損的前提下顯著降低了模型的參數(shù)量與計(jì)算開(kāi)銷(xiāo)。下圖中,(a)是深度可分卷積,(b)是將深度可分卷積中的1x1卷積替換為分組1x1卷積,(c)是本文提出的分組逐通道卷積(以融合各組信息),(d)是本文提出的深度可分逐通道卷積。

 

 

8. Pelee:一種基于移動(dòng)端設(shè)備的實(shí)時(shí)目標(biāo)檢測(cè)系統(tǒng)

Pelee:A Real-Time Object Detection System on Mobile Devices

https://nips.cc/Conferences/2018/Schedule?showEvent=11208

本文由西安大略大學(xué)完成。為實(shí)現(xiàn)深度學(xué)習(xí)模型在移動(dòng)端設(shè)備上的部署,研究者們提出了一系列精簡(jiǎn)網(wǎng)絡(luò)結(jié)構(gòu),包括MobileNet、ShuffleNet和NASNet-A等,但是此類(lèi)模型嚴(yán)重依賴(lài)于深度可分卷積,而這一卷積操作在大多數(shù)深度學(xué)習(xí)框架中沒(méi)有較好的高效實(shí)現(xiàn)。針對(duì)這一問(wèn)題,本文基于傳統(tǒng)的卷積操作,構(gòu)建了PeleeNet這一高效網(wǎng)絡(luò)結(jié)構(gòu)。PeleeNet可以看作是DenseNet的一個(gè)變種,采用了類(lèi)似的連接模型和設(shè)計(jì)思想。具體地,PeleeNet中采用了雙卷積通道和名為stem block的初始卷積單元,同時(shí)動(dòng)態(tài)地調(diào)整瓶頸層中的通道數(shù)量以節(jié)省計(jì)算開(kāi)銷(xiāo),并對(duì)SSD模型的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行優(yōu)化,與PeleeNet結(jié)合,實(shí)現(xiàn)了在移動(dòng)端設(shè)備上的實(shí)時(shí)目標(biāo)檢測(cè)。

 

 

自動(dòng)機(jī)器學(xué)習(xí)

Auto Machine Learning

自動(dòng)機(jī)器學(xué)習(xí)(AutoML)是機(jī)器學(xué)習(xí)中最近興起的重要分支。它主要是指,把機(jī)器學(xué)習(xí)在現(xiàn)實(shí)問(wèn)題上的應(yīng)用過(guò)程自動(dòng)化的技術(shù)。在一個(gè)典型的機(jī)器學(xué)習(xí)應(yīng)用中,實(shí)踐者必須人工去做特征預(yù)處理、算法選擇、網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)(如果選擇了深度學(xué)習(xí)算法)、超參調(diào)節(jié),以求最大化模型性能。這其中的很多步驟都超出了非算法專(zhuān)家的能力,所以自動(dòng)機(jī)器學(xué)習(xí)被提出來(lái)將這些步驟自動(dòng)化。自動(dòng)機(jī)器學(xué)習(xí),使得機(jī)器學(xué)習(xí)在實(shí)際問(wèn)題的應(yīng)用中變得更為容易,也更容易得到一些可以超越手工設(shè)計(jì)模型性能的新模型。初略統(tǒng)計(jì)本屆NIPS有20余篇自動(dòng)機(jī)器學(xué)習(xí)相關(guān)論文,涵蓋貝葉斯優(yōu)化、網(wǎng)絡(luò)結(jié)構(gòu)搜索、以及遷移學(xué)習(xí)等多個(gè)方面。

這次會(huì)議的研究中體現(xiàn)了三大特點(diǎn):一、研究上開(kāi)始解決更為復(fù)雜的任務(wù)(例如,語(yǔ)義分割)的網(wǎng)絡(luò)結(jié)構(gòu)搜索;二、小領(lǐng)域之間開(kāi)始了融合,比如出現(xiàn)了用貝葉斯優(yōu)化(傳統(tǒng)上用于超參優(yōu)化)來(lái)解決網(wǎng)絡(luò)結(jié)構(gòu)搜索的技術(shù)研究;三、其他非自動(dòng)機(jī)器學(xué)習(xí)領(lǐng)域的技術(shù)開(kāi)始被更多地應(yīng)用過(guò)來(lái),例如遷移學(xué)習(xí)。

1. 為稠密圖像預(yù)測(cè)搜索高效多規(guī)模結(jié)構(gòu)

Searching for Efficient Multi-Scale Architectures for Dense Image Prediction

https://nips.cc/Conferences/2018/Schedule?showEvent=11831

神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)是許多機(jī)器學(xué)習(xí)系統(tǒng)在很多任務(wù)上最先進(jìn)性能的關(guān)鍵組件。許多工作都致力于通過(guò)將巧妙構(gòu)建的搜索空間和簡(jiǎn)單的學(xué)習(xí)算法結(jié)合來(lái)自動(dòng)設(shè)計(jì)和構(gòu)建神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。最近的進(jìn)展表明,這種元學(xué)習(xí)方法在圖像分類(lèi)問(wèn)題上可以取得超出人類(lèi)設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)的性能。一個(gè)懸而未決的問(wèn)題是這些方法在其他領(lǐng)域中能夠取得什么樣的性能。在這項(xiàng)工作中,我們關(guān)注密集圖像預(yù)測(cè)的元學(xué)習(xí)技術(shù)的構(gòu)建,重點(diǎn)是場(chǎng)景解析,人體分割和語(yǔ)義圖像分割的任務(wù)。由于視覺(jué)信息的多尺度性以及圖像的高分辨率,在密集圖像預(yù)測(cè)任務(wù)上進(jìn)行合適的網(wǎng)絡(luò)結(jié)構(gòu)搜索是十分具有挑戰(zhàn)性的;趯(duì)密集圖像預(yù)測(cè)技術(shù)的調(diào)查,我們構(gòu)建了一個(gè)遞歸搜索空間,并證明即使使用有效的隨機(jī)搜索,我們也可以找出出優(yōu)于人類(lèi)設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu),并在三個(gè)密集預(yù)測(cè)上實(shí)現(xiàn)最先進(jìn)的性能任務(wù):其中包括在Cityscapes(街景解析)數(shù)據(jù)集上取得82.7%的準(zhǔn)確度,在PASCAL-Person-Part(人體分割)上71.3%的準(zhǔn)確度,以及在PASCAL VOC 2012(語(yǔ)義圖像分割)87.9%的準(zhǔn)確度。另外,我們模型得到的網(wǎng)絡(luò)結(jié)構(gòu)在計(jì)算上更有效,跟現(xiàn)有的技術(shù)相比僅需要一半的參數(shù)和一半的計(jì)算力。

 

 

2. 神經(jīng)結(jié)構(gòu)優(yōu)化

Neural Architecture Optimization

https://nips.cc/Conferences/2018/Schedule?showEvent=11750

自動(dòng)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)已經(jīng)顯示出其在發(fā)現(xiàn)強(qiáng)大的神經(jīng)網(wǎng)絡(luò)架構(gòu)方面的潛力。無(wú)論是基于強(qiáng)化學(xué)習(xí)還是進(jìn)化算法(EA)的現(xiàn)有技術(shù)都是在離散空間中進(jìn)行搜索。這是非常低效的。在本文中,我們提出了一種簡(jiǎn)單有效的基于連續(xù)優(yōu)化的自動(dòng)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)方法。我們將這種新方法稱(chēng)為神經(jīng)結(jié)構(gòu)優(yōu)化(NAO)。我們提出的方法有三個(gè)關(guān)鍵組成部分:(1)編碼器將神經(jīng)網(wǎng)絡(luò)架構(gòu)映射到連續(xù)空間中(2)預(yù)測(cè)器將網(wǎng)絡(luò)的連續(xù)表示作為輸入并預(yù)測(cè)其準(zhǔn)確性(3)解碼器將網(wǎng)絡(luò)的連續(xù)表示映射回其架構(gòu)。性能預(yù)測(cè)器和編碼器使我們能夠在連續(xù)空間中執(zhí)行基于梯度優(yōu)化,以找到具有更高精度的新架構(gòu)的表達(dá)。然后,解碼器將這種更好的嵌入解碼到網(wǎng)絡(luò)。實(shí)驗(yàn)表明,我們的方法發(fā)現(xiàn)的體系結(jié)構(gòu)對(duì)于CIFAR-10上的圖像分類(lèi)任務(wù)和PTB上的語(yǔ)言建模任務(wù)具有很強(qiáng)的競(jìng)爭(zhēng)力,優(yōu)于或者與先前的網(wǎng)絡(luò)結(jié)構(gòu)搜索方法的最佳結(jié)果相當(dāng),并且計(jì)算資源顯著減少。具體來(lái)說(shuō),我們?cè)贑IFAR-10圖像分類(lèi)任務(wù)的測(cè)試集上的錯(cuò)誤率為2.07%和在PTB語(yǔ)言建模任務(wù)測(cè)試集perplexity為55.9。在上述兩個(gè)任務(wù)上發(fā)現(xiàn)的最佳體系結(jié)構(gòu)可以被遷移到其他諸如CIFAR-100和WikiText-2等數(shù)據(jù)集合。此外,通過(guò)使用最近人們提出的權(quán)重共享機(jī)制,我們的模型可以在有限計(jì)算資源條件下(單一GPU訓(xùn)練10小時(shí))在CIFAR-10(錯(cuò)誤率為3.53%)和PTB(測(cè)試集perplexity為56.3)上取得不錯(cuò)的結(jié)果。

 

 

3. 利用貝葉斯優(yōu)化和最優(yōu)運(yùn)輸做神經(jīng)結(jié)構(gòu)搜索

Neural Architecture Search with Bayesian Optimisation and Optimal Transport

https://nips.cc/Conferences/2018/Schedule?showEvent=11214

貝葉斯優(yōu)化是指一類(lèi)用于對(duì)黑盒函數(shù)f進(jìn)行全局優(yōu)化的方法,其中對(duì)于f我們只能得到其在某些點(diǎn)處的評(píng)估值。這種方法通常應(yīng)用于f的評(píng)估代價(jià)非常昂貴時(shí),在機(jī)器學(xué)習(xí)中的一個(gè)應(yīng)用情形是模型選擇。由于模型的泛化性能是很難分析的,所以我們一般利用帶噪音和高昂的訓(xùn)練、驗(yàn)證程序去選擇最好的模型。傳統(tǒng)的貝葉斯優(yōu)化方法集中在歐式和類(lèi)別數(shù)據(jù)的領(lǐng)域,所以它在模型選擇中只能用來(lái)對(duì)機(jī)器學(xué)習(xí)模型調(diào)節(jié)超參。但是,隨著對(duì)深度學(xué)習(xí)的興趣的激增,調(diào)節(jié)網(wǎng)絡(luò)結(jié)構(gòu)的需求也在快速增長(zhǎng)。在本文中,我們?cè)O(shè)計(jì)了一個(gè)名為NASBOT的算法,一個(gè)基于高斯過(guò)程來(lái)做網(wǎng)絡(luò)結(jié)構(gòu)搜索的貝葉斯優(yōu)化框架。為了實(shí)現(xiàn)這個(gè)目標(biāo),我們針對(duì)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)空間設(shè)計(jì)了一個(gè)可以通過(guò)最優(yōu)運(yùn)輸程序高效計(jì)算的度量。這個(gè)度量對(duì)于深度學(xué)習(xí)社區(qū)可能還有在貝葉斯優(yōu)化之外的其他用處。我們?cè)趲讉(gè)基于交叉驗(yàn)證的多層感知器和卷積神經(jīng)網(wǎng)絡(luò)模型選擇問(wèn)題上,展示了NASBOT可以超越其他網(wǎng)絡(luò)結(jié)構(gòu)搜索的替代方案。

 

 

4. 利用傅里葉特征的高效高維貝葉斯優(yōu)化

Efficient High Dimensional Bayesian Optimization with Additivity and Quadrature Fourier Features

https://nips.cc/Conferences/2018/Schedule?showEvent=11859

我們針對(duì)高維的黑盒函數(shù)優(yōu)化設(shè)計(jì)了一個(gè)高效的貝葉斯優(yōu)化算法。我們假設(shè)了一個(gè)可重疊變量組的廣義可加模型。當(dāng)變量組之間不重疊時(shí),我們可以為高維貝葉斯優(yōu)化提供第一個(gè)可以證明的多項(xiàng)式時(shí)間算法。為了使得優(yōu)化高效和可行,我們引入一個(gè)新的基于數(shù)值積分的確定性的傅里葉特征逼近,并為平方指數(shù)核提供了詳細(xì)的分析。這個(gè)逼近的錯(cuò)誤隨著特征的個(gè)數(shù)指數(shù)衰減,并且可以對(duì)后驗(yàn)均值和方差給出精確逼近。另外,核矩陣的逆的計(jì)算復(fù)雜度從數(shù)據(jù)點(diǎn)個(gè)數(shù)的立方減少到線(xiàn)性。

 

 

5. 帶有一個(gè)未知高斯過(guò)程先驗(yàn)的元貝葉斯優(yōu)化的后悔上界

Regret bounds for meta Bayesian optimization with an unknown Gaussian process prior

https://nips.cc/Conferences/2018/Schedule?showEvent=11991

貝葉斯優(yōu)化通常假設(shè)一個(gè)貝葉斯先驗(yàn)是提前給定的。但是,由于先驗(yàn)里未知的參數(shù),在貝葉斯優(yōu)化里的強(qiáng)理論保證經(jīng)常是在實(shí)踐里是達(dá)不到的。在這篇文章中,我們采用了一個(gè)經(jīng)驗(yàn)貝葉斯的變體并且展示了,通過(guò)用相同先驗(yàn)里抽取的離線(xiàn)數(shù)據(jù)來(lái)估計(jì)高斯過(guò)程先驗(yàn)并構(gòu)造后驗(yàn)的無(wú)偏估計(jì),基于置信上界和提升概率的變體都可以達(dá)到一個(gè)接近零的后悔上界。該后悔上界隨著離線(xiàn)數(shù)據(jù)個(gè)數(shù)和在線(xiàn)評(píng)估個(gè)數(shù)的增加,可以衰減到一個(gè)與觀(guān)察噪音成比例的常數(shù)。實(shí)驗(yàn)上,我們?cè)诤苡刑魬?zhàn)的模擬機(jī)器人問(wèn)題處理和運(yùn)動(dòng)規(guī)劃上成功驗(yàn)證了所提的方法。

 

 

6. 為貝葉斯優(yōu)化最大化獲得函數(shù)

Maximizing acquisition functions for Bayesian optimization

https://nips.cc/Conferences/2018/Schedule?showEvent=11938

貝葉斯優(yōu)化是一個(gè)主要依賴(lài)于獲得函數(shù)來(lái)引導(dǎo)搜索過(guò)程的,用于全局優(yōu)化的高效抽樣方法。對(duì)獲得函數(shù)進(jìn)行完全最大化就產(chǎn)生了貝葉斯決策規(guī)則,但是由于這些獲得函數(shù)通常都是很難優(yōu)化的,所以這個(gè)理想很難實(shí)現(xiàn)。尤其當(dāng)并行評(píng)估幾個(gè)詢(xún)問(wèn)時(shí),由于獲得函數(shù)是非凸、高維和棘手的,最大化獲得函數(shù)就更加難以實(shí)現(xiàn)了。為此,我們利用了蒙特卡洛積分的可微性和并行詢(xún)問(wèn)的子模性,提出兩個(gè)新的用于最大化獲得函數(shù)的方法。

 

 

7. 用于自動(dòng)化機(jī)器學(xué)習(xí)的概率矩陣分解

Probabilistic Matrix Factorization for Automated Machine Learning

https://nips.cc/Conferences/2018/Schedule?showEvent=11337

為了達(dá)到頂尖的性能,現(xiàn)代機(jī)器學(xué)習(xí)技術(shù)需要仔細(xì)的數(shù)據(jù)預(yù)處理和超參調(diào)節(jié)。此外,由于研發(fā)的機(jī)器學(xué)習(xí)模型的個(gè)數(shù)的增長(zhǎng),模型選擇也變得越來(lái)越重要。自動(dòng)化機(jī)器學(xué)習(xí)的選擇和調(diào)節(jié),一直以來(lái)都是機(jī)器學(xué)習(xí)社區(qū)的研究目標(biāo)之一。在本文中,我們提出通過(guò)組合協(xié)同過(guò)濾和貝葉斯優(yōu)化的想法來(lái)解決這個(gè)元學(xué)習(xí)的任務(wù)。具體來(lái)說(shuō),我們通過(guò)概率矩陣分解利用在數(shù)百個(gè)不同數(shù)據(jù)上的實(shí)驗(yàn),然后利用獲得函數(shù)來(lái)指導(dǎo)對(duì)可能的機(jī)器學(xué)習(xí)流程空間的探索。在我們的實(shí)驗(yàn)里,我們展示了我們的方法可以在很多數(shù)據(jù)上快速確認(rèn)高性能的流程,并可以顯著地超越目前的頂尖方法。

 

 

8. 可擴(kuò)展的超參遷移學(xué)習(xí)

Scalable Hyperparameter Transfer Learning

https://nips.cc/Conferences/2018/Schedule?showEvent=11660

貝葉斯優(yōu)化(BO)是一種針對(duì)例如超參優(yōu)化等無(wú)梯度黑盒函數(shù)優(yōu)化問(wèn)題的基于模型的方法。通常來(lái)說(shuō),貝葉斯優(yōu)化依賴(lài)于傳統(tǒng)的高斯過(guò)程回歸,然而傳統(tǒng)的高斯過(guò)程的算法復(fù)雜度是評(píng)價(jià)測(cè)試數(shù)目的立方級(jí)。因此,基于高斯過(guò)程的貝葉斯優(yōu)化不能夠利用大量過(guò)去評(píng)價(jià)測(cè)試的經(jīng)驗(yàn)作為熱啟動(dòng)。在本文中,我們提出了一種多任務(wù)的自適應(yīng)的貝葉斯線(xiàn)性回歸模型來(lái)解決該問(wèn)題。值得注意的是,該模型僅是評(píng)價(jià)測(cè)試數(shù)目的線(xiàn)性復(fù)雜度。在該模型中,每個(gè)黑盒函數(shù)優(yōu)化問(wèn)題(任務(wù))都以一個(gè)貝葉斯線(xiàn)性回歸模型來(lái)建模,同時(shí)多個(gè)模型通過(guò)共享一個(gè)深度神經(jīng)網(wǎng)絡(luò)進(jìn)行耦合,從而實(shí)現(xiàn)遷移學(xué)習(xí)。實(shí)驗(yàn)表明該神經(jīng)網(wǎng)絡(luò)可以學(xué)到一個(gè)適合熱啟動(dòng)黑盒優(yōu)化問(wèn)題的特征表示,并且當(dāng)目標(biāo)黑盒函數(shù)和其他相關(guān)信號(hào)(比如訓(xùn)練損失)一起學(xué)習(xí)的時(shí)候,貝葉斯優(yōu)化可以變快。該模型被證明至少比最近發(fā)表的相關(guān)黑盒優(yōu)化文獻(xiàn)快了至少一個(gè)數(shù)量級(jí)。

 

 

9. 利用神經(jīng)自動(dòng)機(jī)器學(xué)習(xí)的遷移學(xué)習(xí)

Transfer Learning with Neural AutoML

https://nips.cc/Conferences/2018/Schedule?showEvent=11799

在本文中,我們通過(guò)遷移學(xué)習(xí)減小神經(jīng)網(wǎng)絡(luò)AutoML的計(jì)算代價(jià)。AutoML通過(guò)自動(dòng)化機(jī)器學(xué)習(xí)算法以減少人的干預(yù)。盡管神經(jīng)網(wǎng)絡(luò)AutoML因可以自動(dòng)設(shè)計(jì)深度學(xué)習(xí)網(wǎng)絡(luò)的結(jié)構(gòu)最近非常流行,但是其計(jì)算成本巨大。為了解決該問(wèn)題,我們提出了基于遷移學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)AutoML,以充分利用之前任務(wù)上學(xué)習(xí)到的知識(shí)來(lái)加快網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)。我們擴(kuò)展了基于增強(qiáng)學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu)搜索方法以支持多個(gè)任務(wù)上的并行訓(xùn)練,并將得到的搜索策略遷移到新的任務(wù)上。在自然語(yǔ)言及圖像分類(lèi)的任務(wù)上,該方法將單任務(wù)訓(xùn)練的收斂時(shí)間減少了至少一個(gè)數(shù)量級(jí)。

 

 

機(jī)器學(xué)習(xí)與最優(yōu)化算法

Optimization For Learning

眾所周知,機(jī)器學(xué)習(xí)與最優(yōu)化算法之間的關(guān)系密不可分。在機(jī)器學(xué)習(xí)建模的過(guò)程中,會(huì)出現(xiàn)各式的極小值優(yōu)化模型。在學(xué)習(xí)參數(shù)的過(guò)程中,會(huì)使用到各種各樣的最優(yōu)化算法。機(jī)器學(xué)習(xí)算法和最優(yōu)化算法以及它們的交叉,歷年都是研究的熱點(diǎn)。在本次nips收錄的文章中,同樣出現(xiàn)了大量的機(jī)器學(xué)習(xí)的模型建立以及模型訓(xùn)練算法設(shè)計(jì)的工作。

1. Adaptive Methods for Nonconvex Optimization

https://papers.nips.cc/paper/8186-adaptive-methods-for-nonconvex-optimization.pdf

本文由google research 和 卡內(nèi)基梅隆大學(xué)合作完成。 本文證明,通過(guò)增加batch-size,ADAM和RMSProp可以保證全局收斂性質(zhì)。基于此,文中也提出了一類(lèi)新的訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的自適應(yīng)隨機(jī)梯度算法YOGI。通過(guò)增加batch-size,同樣證明了YOGI的全局收斂性并且通過(guò)實(shí)驗(yàn)驗(yàn)證了YOGI比ADAM具有更快的訓(xùn)練速度和更高的測(cè)試精度。 注意到,本文的作者曾從理論層面指出了ADAM和RMSProp是發(fā)散的,并因此獲得ICLR2018 Best Paper Award。

 

 

Figure1. ADAM和YOGI的算法框架對(duì)比

 

 

Figure2. ResNet在CIFAR10數(shù)據(jù)集上的測(cè)試精度對(duì)比

 

 

Figure3. 在深度自動(dòng)編解碼模型上, YOGI和ADAM訓(xùn)練損失和測(cè)試損失對(duì)比圖

2. Spider: Near-Optimal Non-Convex Optimization via Stochastic Path Integrated Differential Estimator

https://papers.nips.cc/paper/7349-spider-near-optimal-non-convex-optimization-via-stochastic-path-integrated-differential-estimator.pdf

本文由北京大學(xué)和騰訊AI Lab合作完成。本文的主要貢獻(xiàn)主要在理論層面,文中提出了尋找非凸隨機(jī)優(yōu)化的一階和二階穩(wěn)定點(diǎn)的算法SPIDER。 文中證明SPIDER算法的計(jì)算復(fù)雜度在當(dāng)前求解非凸隨機(jī)優(yōu)化算法中是最優(yōu)的。 另外文中采用的一種全新的計(jì)算復(fù)雜度的分析技巧,該技巧具有很強(qiáng)的可移植性,可以應(yīng)用到其他很多的隨機(jī)優(yōu)化算法的分析中。

 

 

Figure1. SPIDER算法框架

 

 

Figure2. 不同算法的計(jì)算復(fù)雜度對(duì)比圖

3. Escaping Saddle Points in Constrained Optimization

https://papers.nips.cc/paper/7621-escaping-saddle-points-in-constrained-optimization.pdf

本文由麻省理工學(xué)院獨(dú)立完成。針對(duì)帶約束的非凸光滑優(yōu)化問(wèn)題 , 本文提出了一類(lèi)通用的求解算法框架,并且首次證明了該算法框架可以逃離約束非凸優(yōu)化問(wèn)題的鞍點(diǎn)。值得說(shuō)明的是,本文是第一個(gè)提出能求夠逃離約束非凸優(yōu)化問(wèn)題鞍點(diǎn)的算法。

 

 

 

 

4. Online Adaptive Methods, Universality and Acceleration

https://papers.nips.cc/paper/7885-online-adaptive-methods-universality-and-acceleration.pdf

本文由蘇黎世聯(lián)邦理工學(xué)院和洛桑聯(lián)邦理工學(xué)院合作完成。本文提出一類(lèi)新的自適應(yīng)隨機(jī)梯度算法來(lái)AcceleGrad求解無(wú)約束隨機(jī)凸優(yōu)化問(wèn)題。AcceleGrad算法中采用了新穎的加權(quán)自適應(yīng)學(xué)習(xí)率估計(jì)策略和Nesterov加速策略來(lái)提高效率。作者理論上證明了該算法能夠達(dá)到最優(yōu)的計(jì)算復(fù)雜度。另外,作者從實(shí)驗(yàn)上說(shuō)明了AcceleGrad算法的優(yōu)越性。

 

 

Figure 1. AcceleGrad 算法框架

 

 

Figure2. AcceleGrad 算法與SGD和AdaGrad的效果對(duì)比圖。

5. Multi-Task Learning as Multi-Objective Optimization

https://papers.nips.cc/paper/7334-multi-task-learning-as-multi-objective-optimization.pdf

本文由Intel實(shí)驗(yàn)室獨(dú)立完成。多任務(wù)學(xué)習(xí)問(wèn)題通常建模成為一個(gè)極小化問(wèn)題,其中這個(gè)優(yōu)化問(wèn)題的損失函數(shù)為多個(gè)任務(wù)的損失函數(shù)的線(xiàn)性組合。在本文中,作者創(chuàng)造性的將多任務(wù)學(xué)習(xí)直接建模成為一個(gè)多目標(biāo)優(yōu)化問(wèn)題,

 

 

并且提出了一類(lèi)求解上述多目標(biāo)優(yōu)化問(wèn)題的梯度型算法。最后,作者通過(guò)實(shí)驗(yàn)上說(shuō)明了基于多目標(biāo)優(yōu)化的多任務(wù)學(xué)習(xí)算法的優(yōu)越性。

 

 

Figure1. 多目標(biāo)優(yōu)化問(wèn)題的梯度型算法框架

 

 

Figure2. 不同算法的效果對(duì)比圖(越小越好)

6. Semidefinite relaxations for certifying robustness to adversarial examples

https://papers.nips.cc/paper/8285-semidefinite-relaxations-for-certifying-robustness-to-adversarial-examples.pdf

本文由斯坦福大學(xué)獨(dú)立完成。神經(jīng)網(wǎng)絡(luò)的攻防是近年的研究熱點(diǎn)。本文基于最優(yōu)化中的半正定松弛技巧來(lái)確定神經(jīng)網(wǎng)絡(luò)對(duì)攻擊樣本的防御能力。文中提出的半正定松弛技術(shù)驗(yàn)證任意的ReLU神經(jīng)網(wǎng)絡(luò)的防御魯棒性,并且從理論上說(shuō)明了文中采取的半正定松弛技術(shù)比線(xiàn)性規(guī)劃松弛技術(shù)更加精準(zhǔn),從而得到更好的魯棒性估計(jì)。

 

 

Figurre1. 不同的松弛技巧的松弛效果對(duì)比圖

 

標(biāo)簽: Google ssd 安全 搜索 推廣 網(wǎng)絡(luò)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀(guān)點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:手把手教你用Python創(chuàng)建簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)(附代碼)

下一篇:如何為數(shù)據(jù)集構(gòu)建圖像重復(fù)查找器?(附代碼)