中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

使用三重?fù)p失網(wǎng)絡(luò)學(xué)習(xí)位置嵌入:讓位置數(shù)據(jù)也能進(jìn)行算術(shù)運(yùn)算

2018-06-28    來源:raincent

容器云強(qiáng)勢上線!快速搭建集群,上萬Linux鏡像隨意使用
數(shù)據(jù)科學(xué)公司 Sentiance 近日刊文介紹了新機(jī)器學(xué)習(xí)算法平臺,該平臺能以自監(jiān)督的方式學(xué)習(xí)位置數(shù)據(jù)并從中提取見解。本文對該文章進(jìn)行了編譯介紹。

引言

我們 Sentiance 開發(fā)了一款能接收加速度計、陀螺儀和位置信息等智能手機(jī)傳感器數(shù)據(jù)并從中提取出行為見解的平臺。我們的人工智能平臺能學(xué)習(xí)用戶的模式,并能預(yù)測和解釋事情發(fā)生的原因和時間,這讓我們的客戶能夠在正確的時間以合適的方式指導(dǎo)他們的用戶。

場地映射算法(venue mapping algorithm)是我們的平臺的一個重要組件。場地映射算法的目標(biāo)是根據(jù)來自智能手機(jī)位置子系統(tǒng)的往往不準(zhǔn)確的位置測量數(shù)據(jù),搞清楚你將要到達(dá)的場地。

 

 

圖 1:左圖:場地映射的意思是估計用戶實(shí)際正在前往的臨近場地;右圖:人類直覺能幫助我們快速排除不太可能的場地,比如一位用戶正去往海灘時不太可能去救生站。

盡管場地映射總體上是一大難題,而且也是我們未來一篇博客文章的主要內(nèi)容,但基于該地區(qū)周圍地理情況的人類直覺卻能輕松簡單地處理。如圖 1 所示,假設(shè)一位用戶正前往圣莫尼卡海灘。只需看一眼周圍的地理情況,我們就知道該用戶實(shí)際正前往求生站的概率可能相當(dāng)小。

事實(shí)上,只需要看一眼這個區(qū)域的地圖,人類往往就能快速排除不太可能的場地并構(gòu)建一個實(shí)際情況的預(yù)先信念。這個場地位于工業(yè)區(qū)、公園、靠近海灘、市中心還是公路旁邊?

為了讓我們的場地映射算法具備同樣的直覺意識,我們開發(fā)了一種基于深度學(xué)習(xí)的解決方案,其可訓(xùn)練用于編碼地理空間關(guān)系和描述位置周圍情況的語義相似度的模型。圖 2 是這一概念的圖示。

 

 

圖 2:給定位置周圍的區(qū)域會被柵格化(rasterized),然后被傳遞給一個深度神經(jīng)網(wǎng)絡(luò)。這個網(wǎng)絡(luò)用作編碼器,輸出一個能獲取輸入位置的高層語義的嵌入。

編碼器會將位置轉(zhuǎn)換成分布式的表征,這類似于 Word2Vec [1] 對自然語言所做的工作。這些嵌入位于一個度量空間中,因此遵循代數(shù)規(guī)則。比如,我們可以使用詞嵌入推理詞的相似度和類比關(guān)系。我們甚至可以直接在嵌入空間中執(zhí)行「國王-男人+女人=女王」這樣的算術(shù)運(yùn)算。

在接下來的幾段中,我們將會討論我們?nèi)绾卧O(shè)計了一種解決方案,可學(xué)習(xí)將位置坐標(biāo)映射到度量空間中,這讓我們可以執(zhí)行一些類似于詞嵌入的操作,如圖 3 所示。

 

 

圖 3:我們提出的解決方案可直接優(yōu)化度量空間,這樣就能使用基本的算術(shù)運(yùn)算探索該嵌入空間了。

圖像瓦片生成

柵格化 GIS 數(shù)據(jù)

給定一個位置坐標(biāo)和一個半徑,我們可以查詢我們的 GIS 數(shù)據(jù)庫以獲取大量地理信息。我們的 GIS 數(shù)據(jù)庫是一個存儲在一個 PostGis 數(shù)據(jù)庫中的 OpenStreetMap 的本地副本。PostGis 是一個很方便的 PostgreSQL 擴(kuò)展,增加了對空間運(yùn)算符、類型和索引的支持。

比如,我們可以使用一組查詢輕松檢查一個定位附近是否有河流、這里離最近的火車站有多遠(yuǎn),這個位置附近是否存在道路。此外,實(shí)際道路本身可以以折線的形式被提取出來,同時火車站建筑的外形輪廓可被提取成一個多邊形對象。

但是,我們不清楚如何將這樣大量的非結(jié)構(gòu)化數(shù)據(jù)有效地提供給神經(jīng)網(wǎng)絡(luò)進(jìn)一步處理?紤]到我們訓(xùn)練神經(jīng)網(wǎng)絡(luò)的目標(biāo)是理解距離、包含、遮擋和相離等形狀和空間關(guān)系,所以我們決定在將位置的周邊情況送入編碼器之前首先將其柵格化處理成固定尺寸的圖像。

幸運(yùn)的是,我們正好有能做到這一點(diǎn)的有效工具。我們將 Mapnik 及其 Python 捆綁包與一個定制版本的 OpenStreetmap-Carto 樣式表組合到了一起,得到了一個快速柵格化器(rasterizer),我們可以將其用于生成圖像瓦片(image tile),如圖 4 所示。

Mapnik:https://github.com/mapnik/mapnik

OpenStreetmap-Carto:https://github.com/gravitystorm/openstreetmap-carto

 

 

圖 4:Mapnik 被用于將從 PostGis 取出的 GIS 數(shù)據(jù)柵格化處理成圖像

我們將我們的柵格化服務(wù)進(jìn)行了參數(shù)化,以便在生成圖像瓦片之前輕松地通過旋轉(zhuǎn)和平移地圖來執(zhí)行數(shù)據(jù)增強(qiáng)。如圖 5 所示,其中的圖像塊展示了同一個位置,只是有不同方向角和水平及垂直偏移值。

 

 

圖 5:我們的圖像瓦片生成器允許在生成圖像瓦片之前通過旋轉(zhuǎn)和平移地圖來輕松執(zhí)行數(shù)據(jù)增強(qiáng)

從圖像到張量

盡管這些柵格化得到的圖像瓦片讓我們的編碼器可以輕松學(xué)習(xí)獲取空間結(jié)構(gòu)和關(guān)系,但仍有大量信息在柵格化過程中丟失。事實(shí)上,柵格化會將道路、建筑、公園輪廓、河流等所有的多邊形和折線段融合到一起。因?yàn)槲覀兊?GIS 數(shù)據(jù)庫包含每個結(jié)構(gòu)單獨(dú)的信息,所以讓神經(jīng)網(wǎng)絡(luò)編碼器來學(xué)習(xí)分割它們實(shí)在就沒有必要了。

因此,我們不是將數(shù)據(jù)柵格化成三通道的 RGB 圖像,而是如上圖所示對該柵格化器進(jìn)行了修改,讓其生成一個 12 通道的張量,其中每個通道都包含了一種不同類型的柵格化后的信息。圖 6 展示了這樣一個 12 通道的張量,其坐標(biāo)與圖 5 的一樣。

 

 

圖 6:一個 12 通道張量被用于表示該區(qū)域。每個通道都包含一種特定信息,比如道路網(wǎng)絡(luò)、土地(包含綠地、水域等)、便利設(shè)施等

為便于人眼觀察,本文的后續(xù)內(nèi)容基本都展示 RGB 柵格化版本,而非 12 通道的張量。

表征學(xué)習(xí)

空間相似度

我們的目標(biāo)是學(xué)習(xí)一個度量空間,其中語義相似的圖像塊對應(yīng)于該空間中互相接近的嵌入向量。然后問題就變成了如何定義「語義相似」。

一種簡單直接的獲取相似度空間的方法是使用直方圖表示每個圖像塊,使用 k-均值聚類,再使用一個詞袋模型建模該空間。但是,我們?nèi)匀徊磺宄總通道應(yīng)該具有怎樣的權(quán)重。比如,如果道路相似,但建筑不相似,那么兩個圖像塊是否語義相似?

此外,即使兩個圖像塊有相似的直方圖,這也不能為我們提供任何有關(guān)該位置周邊情況的空間結(jié)構(gòu)信息。假設(shè)一個圖像塊中一半都被海洋覆蓋,那么這個圖像塊是否與包含大量小池塘、湖泊或噴泉的圖像塊語義相似?圖 7 給出了兩個能得到幾乎完全一樣的直方圖的圖像塊:

 

 

圖 7:基于直方圖的聚類不足以得到語義相似度和空間關(guān)系。這兩張圖像有幾乎完全一樣的直方圖,但它們的語義含義差別相當(dāng)大。

但是,這些圖像塊的語義并不一樣。第一個圖像塊是一個交叉路口區(qū)域,第二個圖像塊則是某些可能通向居民房屋的小型道路。實(shí)際上在我們的嵌入空間中,我們發(fā)現(xiàn)這兩個圖像塊的嵌入之間的歐幾里德距離其實(shí)相當(dāng)大,即使它們的直方圖之間的卡方距離(Chi-Square distance)接近于零。

除了使用直方圖,每個通道都可以通過一組特征來歸納總結(jié)以獲取空間關(guān)系,比如有向梯度直方圖(HoG)或者更傳統(tǒng)的 SIFT 或 SURF 描述符。但是,我們沒有試圖人工指定哪些特征定義了語義相似度,我們決定使用深度學(xué)習(xí)的力量來學(xué)習(xí)自動檢測有意義的特征。

為了做到這一點(diǎn),我們將這種 12 通道張量輸入到了一個用作我們的編碼器的卷積神經(jīng)網(wǎng)絡(luò)中。該網(wǎng)絡(luò)使用一個三重?fù)p失函數(shù)(triplet loss function)以自監(jiān)督的形式進(jìn)行訓(xùn)練,這意味著在訓(xùn)練過程中無需人工標(biāo)注的數(shù)據(jù)。

自監(jiān)督學(xué)習(xí):三重網(wǎng)絡(luò)

三重?fù)p失概念的靈感源自孿生網(wǎng)絡(luò)(siamese network)架構(gòu),這是 Ailon et al. [2] 為無監(jiān)督特征學(xué)習(xí)執(zhí)行深度度量學(xué)習(xí)而提出的一種方法。

三重網(wǎng)絡(luò)是一種使用三元組 進(jìn)行訓(xùn)練的神經(jīng)網(wǎng)絡(luò)架構(gòu),其中包括:

一個錨實(shí)例 x
一個與 x 語義近似的正實(shí)例 x+
一個與 x 語義不同的負(fù)實(shí)例 x-

然后訓(xùn)練該網(wǎng)絡(luò),使其學(xué)習(xí)一個嵌入函數(shù) f(.),使得,從而直接優(yōu)化度量空間。如圖 8 所示。

 

 

圖 8:三重網(wǎng)絡(luò)是使用一個三重?fù)p失訓(xùn)練的,這樣在學(xué)習(xí)到的度量空間中,相似的實(shí)例彼此更為接近,不相似的實(shí)例則相距更遠(yuǎn)。

使用三重網(wǎng)絡(luò)的度量學(xué)習(xí)因谷歌的 FaceNet [3] 而變得更為流行,其中使用了三重?fù)p失來學(xué)習(xí)人臉圖像的嵌入空間,這樣相似人臉的嵌入就更為接近,不同人臉的嵌入則距離更遠(yuǎn)。

對人臉識別而言,正例圖像是來自錨圖像中同一人的圖像,而負(fù)例圖像則是從 mini-batch 中隨機(jī)選擇的人的圖像。但是,我們這個案例卻沒有能輕松選擇正實(shí)例和負(fù)實(shí)例的分類。

為了定義語義相似度,我們可以使用托伯勒提出的「地理學(xué)第一定律」:「在地表空間中,所有事物是相互聯(lián)系的,但是距離近的事物比距離遠(yuǎn)的事物間的聯(lián)系更密切!

下面,設(shè) I(.) 是從位置坐標(biāo)到柵格化圖像塊的映射。對于位置 X,給定一個在柵格化圖像塊之前執(zhí)行的旋轉(zhuǎn)和平移變換 T(.),再給定一個隨機(jī)位置 Y,且 X≠Y,那么我們可以得到我們的三元組:

x=I(X)
x^+=I(T(x))
x^-=I(Y)

因此,我們假設(shè)兩個地理上鄰近且存在部分重疊的圖像塊在語義上比兩個完全不同的圖像塊更相關(guān)。圖 9 給出了兩個三元組示例,這兩個三元組的錨圖像是一樣的。

 

 

圖 9:由一張錨圖像、一張正例圖像和一張負(fù)例圖像構(gòu)成的三元組

為了防止神經(jīng)網(wǎng)絡(luò)只學(xué)習(xí)到簡單的變換,我們還在訓(xùn)練過程中為每個正實(shí)例隨機(jī)啟動或禁用了 12 個通道中的某些通道。這會迫使網(wǎng)絡(luò)認(rèn)為正例圖像塊與錨圖像是近似的,即使該信息的某個隨機(jī)子集是不同的(比如沒有建筑、沒有道路等)。

SoftPN 三重?fù)p失函數(shù)

圖 10 展示了我們的三重網(wǎng)絡(luò)的一般結(jié)構(gòu)。

 

 

圖 10:這個三重?fù)p失直接優(yōu)化「錨嵌入和正例嵌入之間的距離」與「錨嵌入和負(fù)例嵌入之間的距離」的比

這個損失函數(shù)定義為,這樣優(yōu)化網(wǎng)絡(luò)就對應(yīng)于最小化向量 相比于向量 (0,1) 的均方誤差(MSE)。

我們?yōu)槭裁催@樣定義損失函數(shù)?考慮到我們希望 Δ(a,p) 盡可能地接近于零,同時我們又希望 Δ(a,n) 盡可能大。為了優(yōu)化這個比值,我們在這兩個距離上都應(yīng)用了一個 SoftMax,以得到這個域的有界相似度:

 

 

這種三重?fù)p失的定義往往被稱為 SoftMax 比,并且最早是由 Ailon et al. [2] 提出的。

這個定義的主要問題是網(wǎng)絡(luò)很容易快速學(xué)習(xí)到一個 d_ 接近于 1 的嵌入空間,這是因?yàn)榇蠖鄶?shù)隨機(jī)負(fù)例圖像與錨圖像有非常大的差異。因此,大多數(shù) (a,n) 對都對優(yōu)化過程中的梯度作用不大,這會導(dǎo)致網(wǎng)絡(luò)很快停止學(xué)習(xí)。

有不同的方法可以解決這個問題,其中之一是高難負(fù)例挖掘(hard-negative mining)[3],即仔細(xì)選擇 (a,n) 對以確保網(wǎng)絡(luò)保持學(xué)習(xí)。但是,在我們的情況中,我們并不清楚如何有效選擇高難負(fù)例,同時又不向?qū)W習(xí)過程引入偏差。使用 Balntas et al [4] 提出的 SoftPN 三重?fù)p失函數(shù)是一種更簡單的解決方案。

這種 SoftPN 損失會使用 min(Δ(a,n),Δ(p,n)) 替代上述 SoftMax 計算中的 Δ(a,n)。其效果是,在優(yōu)化過程中,該網(wǎng)絡(luò)會嘗試學(xué)習(xí)一個度量空間,其中錨嵌入和正例嵌入都離負(fù)例嵌入盡可能地遠(yuǎn)。相對而言,原來的 SoftMax 比值損失僅考慮了錨嵌入和負(fù)例嵌入之間的距離。圖 11 展示了這兩者的差異。

 

 

圖 11:SoftPN 損失優(yōu)化這個更困難問題的方式是最大化負(fù)例嵌入與錨嵌入和正例嵌入兩者之間的最小距離

神經(jīng)網(wǎng)絡(luò)架構(gòu)

我們使用了一個相當(dāng)傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)作為編碼器,其中包含 5 個過濾器大小為 3×3 的卷積層,之后是兩層 1D 卷積和一個密集連接層。使用一維卷積的目的是通過跨通道參數(shù)池化(cross-channel parametric pooling)[5] 降低通向網(wǎng)絡(luò)頂部的維度。

而嵌入層本身也是由另一個帶有線性激活函數(shù)的密集層構(gòu)成的,這樣,經(jīng)過其前一層的非線性之后,其輸出就不會一直被局限在正例域內(nèi)。圖 12 給出了其完整的網(wǎng)絡(luò)架構(gòu)。

 

 

圖 12:這個編碼器包含一個卷積神經(jīng)網(wǎng)絡(luò),后面跟著一個全連接層。最后的嵌入層是一個帶有線性激活函數(shù)的密集層

我們積極使用了 dropout 和批歸一化,并使用了 Leaky ReLU 激活函數(shù)以避免在初始測試運(yùn)行中觀察到的 ReLU 死亡問題。

此外,我們還在輸入上直接應(yīng)用了空間 dropout。這會導(dǎo)致一個隨機(jī)選出的輸入通道被完全丟棄,這能迫使網(wǎng)絡(luò)通過關(guān)注不同的通道來學(xué)習(xí)區(qū)分圖像。

完整網(wǎng)絡(luò)是用 Keras 實(shí)現(xiàn)的,僅包含 305 040 個參數(shù),并且使用 Adam 優(yōu)化器在 p3.2xlarge AWS 機(jī)器上訓(xùn)練了兩周時間。

訓(xùn)練數(shù)據(jù)

為了生成我們的訓(xùn)練數(shù)據(jù),我們在我們的平臺上取出了用戶去過的 100 萬個位置,并且添加了大約 50 萬個用戶在交通工具中的位置定位。

對于這 150 萬個位置,每一個我們都柵格化得到了一個尺寸為 128x128x12 的圖像瓦片,代表該位置周圍半徑 100 米的區(qū)域。這些張量用作錨圖像。

對于每個位置,我們還柵格化了 20 張隨機(jī)平移和旋轉(zhuǎn)的圖像瓦片,這些用作正例圖像。偏移量是在 0 到 80 米之間均勻采樣的,而且水平和垂直方向都有。這樣,每個位置會得到 20 對(錨圖像,正例圖像),總共就是 3000 萬張圖像。

三元組在網(wǎng)絡(luò)訓(xùn)練過程中生成,同時生成 mini-batch。每個 mini-batch 包含 20 個位置。對于每個位置,我們隨機(jī)選出 5 對(錨圖像,正例圖像)來得到錨-正例距離的有意義表征。負(fù)例圖像在每個 mini-batch 內(nèi)隨機(jī)選擇,這樣每個 mini-batch 的大小即為 100。

在訓(xùn)練過程中同時生成三元組 mini-batch 實(shí)際上就能得到近乎無限大的不同三元組數(shù)據(jù)集,這能讓網(wǎng)絡(luò)不斷學(xué)習(xí)很多個 epoch。

可視化過濾器和激活

因?yàn)檫@個嵌入空間是以一種自監(jiān)督的方式學(xué)習(xí)到的,沒有標(biāo)注數(shù)據(jù),所以難以在訓(xùn)練過程中監(jiān)控網(wǎng)絡(luò)是否真正學(xué)到了什么東西。

可視化網(wǎng)絡(luò)學(xué)習(xí)到的過濾器是一種不充分但仍然有用的方法。實(shí)際上,我們希望可視化最大化網(wǎng)絡(luò)中不同層的激活的輸入圖像。為了做到這一點(diǎn),我們可以從一張隨機(jī)生成的圖像開始,并且將每個像素都看作是一個有待優(yōu)化的參數(shù)。然后我們使用梯度上升更新圖像像素,這樣它就能最大化所選擇的層的輸出。

根據(jù)這個卷積層的平均輸出激活計算輸入圖像的梯度并迭代運(yùn)行梯度上升幾次,就能得到突出該層中最相關(guān)的結(jié)構(gòu)的圖像。

因?yàn)槲覀兊妮斎胧且粋 12 通道的張量,不是 RGB 圖像,所以我們只選擇其中 3 個有最高平均像素幅度的通道并將它們排列成 RGB 圖像。我們對每個通道應(yīng)用了直方圖均衡化(histogram equalization),以進(jìn)一步增強(qiáng)視覺細(xì)節(jié)。

圖 13 展示了網(wǎng)絡(luò)的一個底層的 32 個過濾器中每一個的結(jié)果。很顯然,這一層看起來關(guān)注的是道路和小塊結(jié)構(gòu)等低級細(xì)節(jié)。

 

 

圖 13:網(wǎng)絡(luò)的底層學(xué)習(xí)的是檢測道路和小塊結(jié)構(gòu)等低級細(xì)節(jié)

圖 14 可視化了一個更高層的 64 個過濾器。這些過濾器顯然會被更平滑且更復(fù)雜的結(jié)構(gòu)激活,這說明網(wǎng)絡(luò)確實(shí)可能正在學(xué)習(xí)其輸入的一種分層的特征分解。

 

 

圖 14:網(wǎng)絡(luò)的更上層往往能通過組合來自更低層的低級特征而學(xué)習(xí)更復(fù)雜的結(jié)構(gòu)

盡管這些可視化的用途不應(yīng)被高估,但它們看起來很有意思,尤其是在很多研究迭代過程中時。比如,早期的版本很快就為我們指出了正確的方向,讓我們發(fā)現(xiàn)了我們網(wǎng)絡(luò)中的一堆死掉的 ReLU。后面我們通過用 Leaky ReLU 激活函數(shù)來替換而解決了這個問題。

探索度量空間

可視化嵌入

在調(diào)試網(wǎng)絡(luò)時,可視化網(wǎng)絡(luò)學(xué)習(xí)到的過濾器確實(shí)很有意思,但在評價所學(xué)習(xí)到的嵌入空間的質(zhì)量方面用處不大。

為了搞清楚嵌入空間看起來如何,圖 15 展示了使用 PCA 將維度降至三維之后的嵌入空間。為便于理解,每一個位置嵌入都在圖中用其柵格化圖像瓦片表示。

 

 

圖 15:通過 PCA 得到的嵌入空間的 3D 圖

這清楚地表明,即使只有前三個主成分,也能得到大量相關(guān)信息。公園等綠色區(qū)域、公路和主干道等不同道路類型、以及圖中右下角的城市中心等區(qū)域有明顯區(qū)別。

為了更清楚地展示這些局部結(jié)構(gòu),圖 16 給出了該嵌入空間的三維 t-SNE 動畫。

 

 

圖 16:通過 t-SNE 得到的嵌入空間的 3D 圖

盡管場地映射是這些嵌入的一大明顯用例,但它們也可被我們交通方式分類器使用。圖 17 展示了從我們的交通方式分類訓(xùn)練集(https://goo.gl/VhwuwS)提取出的定位的嵌入的散點(diǎn)圖。在這個案例中,我們使用了線性判別分析(LDA:Linear Discriminant Analysis)將 16 維的嵌入空間投射成了 2 維。

 

 

圖 17:在乘坐交通工具期間收集的航路點(diǎn)的嵌入空間的 2D LDA

這張圖表明不同的交通模式通常出現(xiàn)在不同的地區(qū)。比如,我們的嵌入得到了有關(guān)火車軌道或電車站的信息。

為了展示被編碼的地理區(qū)域的差異有多大,我們使用 PCA 將這個 16 維嵌入降維到了 3 維,這在比例調(diào)整之后被直接用作了 RGB 顏色值,從而可將我們的測試數(shù)據(jù)集繪制到一張地圖上。圖 18 給出了結(jié)果,這是在英國倫敦?梢郧宄乜吹,市中心、公路、水域、旅游區(qū)和居民區(qū)的編碼都不一樣。

 

 

圖 18:在英國倫敦隨機(jī)采樣的位置的嵌入。這里的顏色是使用 PCA 將 16D 嵌入向量降維至 3D RGB 三元組而得到的。

我們也對英國伯明翰執(zhí)行了類似的操作,可以看到伯明翰的郊區(qū)比倫敦更大,而倫敦周圍的區(qū)域包含多得多的建筑。如圖 19 所示。

 

 

圖 19:在英國伯明翰隨機(jī)采樣的位置的嵌入。這里的顏色是使用 PCA 將 16D 嵌入向量降維至 3D RGB 三元組而得到的。

在空間中隨機(jī)游走

為了進(jìn)一步檢查該嵌入空間的平滑性,我們可以從一個隨機(jī)種子點(diǎn)(seed point)開始執(zhí)行隨機(jī)游走。在每次跳躍時,我們都隨機(jī)選擇一個當(dāng)前嵌入的 k-最近鄰并可視化對應(yīng)的圖像塊。

圖 20 展示了幾個這種隨機(jī)游走的結(jié)果。注意,大多數(shù)情況下,在該嵌入空間中的最近鄰在地理位置上都遠(yuǎn)離彼此數(shù)百或數(shù)千公里,但它們有很高的語義相似度。

 

 

圖 20:在該嵌入空間中的 6 次隨機(jī)游走結(jié)果,每一次都從一個不同的種子點(diǎn)開始。

使用位置進(jìn)行計算

盡管上述可視化結(jié)果表明所學(xué)習(xí)到的嵌入空間是平滑的且學(xué)會了獲取語義相似性,但它不能證明我們實(shí)際上學(xué)習(xí)到了一個歐幾里德度量空間。在一個歐幾里德度量空間中,我們應(yīng)該可以在嵌入之間進(jìn)行插值并執(zhí)行基本的算術(shù)運(yùn)算,同時得到有意義的結(jié)果。

圖 21 從左到右展示了在兩個嵌入之間的插值結(jié)果。在插值的每一步,所得到的嵌入都被映射到了其在我們的測試數(shù)據(jù)中的最近鄰嵌入;這里展示了其對應(yīng)的圖像瓦片。

 

 

圖 21:從一個嵌入(左)到另一個嵌入(右)的插值,其中展示了每個中間步驟的來自我們的測試數(shù)據(jù)的最近鄰圖像。

最后,圖 22 展示了我們對嵌入進(jìn)行加減運(yùn)算所得到的結(jié)果,同樣,這些圖像結(jié)果是來自測試數(shù)據(jù)的對應(yīng)最近鄰圖像。

 

 

圖 22:使用嵌入進(jìn)行計算,并將結(jié)果映射回我們測試數(shù)據(jù)中的最近鄰圖像

這些結(jié)果表明我們的嵌入空間表示的度量空間中的距離實(shí)際上具有含義以及基本算術(shù)規(guī)則

因?yàn)檫@個度量空間是以一種自監(jiān)督的方式訓(xùn)練的,所以可以使用大量無標(biāo)注數(shù)據(jù)來強(qiáng)制網(wǎng)絡(luò)學(xué)習(xí)獲取有意義的關(guān)系。因此,使用這些嵌入作為我們后續(xù)分類器中的特征向量,就對應(yīng)于一種形式的遷移學(xué)習(xí),這讓我們可以使用非常有限量的有標(biāo)注數(shù)據(jù)訓(xùn)練強(qiáng)大的分類器。

總結(jié)

在這篇文章中,我們展示了可以如何使用三重網(wǎng)絡(luò)來學(xué)習(xí)能獲取不同地理位置坐標(biāo)之間的語義相似度的度量空間。

我們訓(xùn)練了一個卷積神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)提取定義這個語義相似度的特征,并使用度量學(xué)習(xí)的方法得到了一個嵌入空間。

所得到的嵌入空間可被直接用于場地映射或交通方式分類等任務(wù),并能通過遷移學(xué)習(xí)的方式幫助我們極大提升我們的分類器準(zhǔn)確度和泛化能力。

此外,這些嵌入還能為我們的分類器增加一定的直覺,因此不正確的分類結(jié)果仍具有直覺意義。比如,場地映射器可以快速學(xué)習(xí)將白天和夜晚的活動與工業(yè)區(qū)、市中心、公園、火車站等特定區(qū)域聯(lián)系起來。

如果你想了解有關(guān)我們平臺的更多信息并自己動手嘗試,可聯(lián)系我們或下載我們的演示應(yīng)用 Journeys:http://www.sentiance.com/demo

參考文獻(xiàn)

[1] Mikolov, Tomas, et al.「Efficient estimation of word representations in vector space.」arXiv preprint arXiv:1301.3781 (2013).

[2] Hoffer, Elad, and Nir Ailon.「Deep metric learning using triplet network.」International Workshop on Similarity-Based Pattern Recognition. Springer, Cham, 2015.

[3] Schroff, Florian, Dmitry Kalenichenko, and James Philbin.「Facenet: A unified embedding for face recognition and clustering.」Proceedings of the IEEE conference on computer vision and pattern recognition. 2015.

[4] Balntas, Vassileios, et al.「PN-Net: Conjoined triple deep network for learning local image descriptors.」arXiv preprint arXiv:1601.05030 (2016).

[5] Lin, Min, Qiang Chen, and Shuicheng Yan.「Network in network.」arXiv preprint arXiv:1312.4400 (2013).

原文連接:http://www.sentiance.com/2018/05/03/loc2vec-learning-location-embeddings-w-triplet-loss-networks

標(biāo)簽: 谷歌 數(shù)據(jù)庫 網(wǎng)絡(luò)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:2018全球Top 1000 計算機(jī)科學(xué)家h指數(shù)發(fā)布,中國29名學(xué)者上榜!

下一篇:世界杯上備受爭議的VAR技術(shù)是如何誕生的?