中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

李飛飛團隊最新提出OpenTag模型:減少人工標注,自動提取產(chǎn)品屬性值

2018-07-01    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用
導讀:

提取缺失屬性值是指從自由文本輸入中找到描述興趣屬性的值。過去大多數(shù)關于提取缺失屬性值的工作都是在封閉的假設下進行,即事先已知一組可能的屬性值,或者使用屬性值字典和手工提取的特征。那么怎樣才能發(fā)現(xiàn)新的屬性值?能用有限的人工標注或監(jiān)督來做到這一點嗎?

論文解讀,給大家?guī)淼氖抢铒w飛團隊最新提出的OpenTag模型論文。OpenTag是目前第一個端到端的開放式屬性值提取框架,在這項工作中,李飛飛團隊利用產(chǎn)品配置文件信息,如標題和描述,來提取缺失的產(chǎn)品屬性值。他們開發(fā)了一種新的深度標注模型OpenTag,從建模、推斷和學習三個方面解決了現(xiàn)實生活中屬性值提取面臨的挑戰(zhàn)。

正文:

?

?

 

這篇論文有以下貢獻:

(1)將問題形式化為序列標注任務,并提出利用遞歸神經(jīng)網(wǎng)絡(雙向LSTM)捕獲上下文和語義的聯(lián)合模型,并且利用條件隨機場(CRF)來約束標注連貫性;

(2)提出了一種新的注意力機制,為我們的模型決策提供了解釋;

(3)提出了一種新的采樣策略,利用主動學習來減少人類標注的負擔。與以前的工作不同的是,OpenTag不使用任何字典或手動提取的特征。作者在不同領域的真實數(shù)據(jù)集做了大量實驗,證明具有主動學習策略的OpenTag僅從150個標注樣本中就可以發(fā)現(xiàn)新的屬性值(減少了3.3倍的標注工作量),并且F分數(shù)高達83%,優(yōu)于目前最先進的模型。

背景介紹

產(chǎn)品目錄是電子商務零售商的寶貴資源,他們可以通過產(chǎn)品目錄來組織、規(guī)范并且發(fā)布信息給客戶。然而,這個目錄信息經(jīng)常是嘈雜的、不完整的,有很多缺失的產(chǎn)品屬性值。一個有趣而重要的挑戰(zhàn)就是從產(chǎn)品描述和其他相關產(chǎn)品信息中補充目錄中缺失的屬性值,特別是我們以前從未見過的屬性。

非正式問題1:給定一組目標屬性(例如,品牌、味道、氣味)和非結(jié)構(gòu)化的產(chǎn)品配置信息(如標題、描述和要點):如何從文本中提取屬性值?如果一些屬性值是新的,比如新興品牌,該如何做?

??

 

圖1

圖1給出了一張亞馬遜網(wǎng)站上一款狗糧的產(chǎn)品配置信息。產(chǎn)品標題“多包菲力牛柳和T骨牛排狗糧(12小包)”中包含了兩個屬性:尺寸和味道,我們想提取這些屬性對應的值,例如“12包”(尺寸)、“菲力牛柳”(味道)和“T骨牛排”(味道)。

這一問題提出了如下挑戰(zhàn):

(1)開放性預測(Open World Assumption,OWA)。之前的屬性值提取研究都是封閉式估測,使用有限的、預定義的屬性值詞典。因此無法發(fā)現(xiàn)新發(fā)布產(chǎn)品的新的屬性值。

(2)屬性疊加與不規(guī)則結(jié)構(gòu)。標題和描述中的產(chǎn)品配置信息通常是非結(jié)構(gòu)性的,與產(chǎn)品細節(jié)緊密排列在一起。因此,鑒別和分割特定的屬性值是很困難的。除此之外,有些產(chǎn)品信息十分簡略。數(shù)據(jù)集中75%的產(chǎn)品標題不超過15個詞,而超過60%的重點內(nèi)容不超過10個詞。

(3)有限的標注數(shù)據(jù),F(xiàn)有的基于神經(jīng)網(wǎng)絡的屬性值提取方法需要大量的標注樣例,因此不能擴展至某些只有數(shù)百個標注樣例的領域。這也引出了第二個非正式問題。

非正式問題2:我們是否可以開發(fā)只需要有限的人工注釋的監(jiān)督模型?另外,我們能開發(fā)出對其決策能給出完整解釋的模型嗎?

論文貢獻

在這篇論文中,我們提出了幾個新的技術來解決上述問題。我們將問題表述為序列標注任務,與命名實體識別(named entity recognition,NER)任務類似。命名實體識別的任務目標是從非結(jié)構(gòu)化文本中識別人、組織或位置的名字。

論文提出的新技術總結(jié)如下

模型:我們將屬性值提取建模為序列標注任務,滿足開放性預測(OWA)并且適用于產(chǎn)品配置文件中的非結(jié)構(gòu)化文本和稀疏文本。我們提出OpenTag模型,利用條件隨機場(CRF)和LSTM,并且增加了一個注意力機制來解釋模型的預測結(jié)果。

學習:探索了主動學習和新的采樣方法來減少對人工標注的依賴。

實驗:我們在不同領域的真實場景數(shù)據(jù)集上進行了大量實驗來驗證OpenTag的有效性。它可以僅從150個標注樣例中發(fā)現(xiàn)新屬性,并且F分數(shù)高達83%,超過了目前最好的方法。

問題定義

給定一組以非結(jié)構(gòu)的文本數(shù)據(jù)形式出現(xiàn)的產(chǎn)品配置信息(標題、描述和要點),以及一組預定義的目標屬性值(例如品牌、口味、尺寸),我們的目標是從非結(jié)構(gòu)的文本數(shù)據(jù)中提取對應的屬性值。

例如輸入為:

目標屬性:品牌、口味和尺寸

產(chǎn)品標題:“5 包裝塞薩爾犬類美食多樣包菲力牛柳和T骨牛排狗糧(12小包)”

產(chǎn)品描述:“多樣包裝包括:6盤菲力牛排味”

我們想提取的是“塞薩爾”(品牌),“菲力牛柳”和“T骨牛排”(口味)以及“6盤”(尺寸)作為對應的模型輸出。

正式問題定義:開放式屬性值提取。給定一系列產(chǎn)品I,對應的產(chǎn)品配置文件X={xi:i屬于I},以及屬性值A={a1, a2, …, am},用開放式估測提取所有的屬性值Vi=<{vi,j,1, …, vi,j,lij }, aj>。我們用vij來表示第i個產(chǎn)品的aj屬性的值。產(chǎn)品配置文件(標題、描述、重點)由單詞或詞條序列組成:xi={wi,1, wi,2, …, wi,n}。

序列標注方法

傳統(tǒng)的方法將這個任務視為多分類問題,將任意目標屬性值作為一個類標,會產(chǎn)生以下問題:(1)標注擴展問題;(2)封閉式估測;(3)標注獨立估測;谝陨系挠^察,我們采用序列標注來對該任務建模。

1. 序列標注

為了更好的對屬性和屬性值之間的依賴關系建模,我們采取序列標注的方法。我們將給定的標注集中的一個標注與輸入序列的每個詞條進行關聯(lián)。目標是聯(lián)合預測輸入序列中的所有標注。在命名實體識別(NER)中,目標是標注給定輸入序列中實體的名字。我們的問題可以視作是NER的一種特殊場景,我們要做的是給定輸入詞條序列,標注屬性值。我們的想法是利用分布式語義,即相似的詞條標注序列能夠識別相似的概念。

2. 序列標注方法

“BIOE”是最常用的序列標注方法。“B”代表一個屬性的開始,“I”代表屬性的內(nèi)部,“O”代表屬性的外部,“E”代表屬性的結(jié)尾。其他的方法包括“UBIOE”和“IOB”。“UBIOE”的“U”代表單元詞條標注,區(qū)分一個詞的屬性和多個詞的屬性。而對于“IOB”標注,由于“B”和“I”已經(jīng)足以表達一個屬性的邊界,所以省略了“E”。

 

??

 

表1

表1給出了上述標注方法的示例。給定一個序列,“鴨肉、菲力牛排和牧羊羔口味”(duck, fillet mignon and ranch raised lamb flavor),由9個單詞組成(包括逗號),BIOE標注方法提取出了3個味道屬性的值,“鴨肉”、“菲力牛排”和“牧羊羔”,分別由“B”、“BE”和“BIE”表示。

3. 序列標注的優(yōu)勢

序列標注方法有以下三個優(yōu)點:

(1) 開放式預測和標注擴展。一個標注與一個詞條相關,而不是一個特定的屬性值,因此可以很好的擴展至新的屬性值。

(2) 發(fā)現(xiàn)多詞屬性值。上述方法可以提取詞條序列(多詞屬性值),而不是只能識別單個詞屬性值。

(3) 發(fā)現(xiàn)多個屬性值。如果多個屬性值分別根據(jù)對方進行了不同標注,標注方法可以同時發(fā)現(xiàn)多個屬性值。

我們將原始的開放式屬性值提取問題簡化為如下序列標注任務:

假設Y是包含所有標注的標注集。如果我們選擇BIOE作為標注方法。那么Y={B, I, O, E}。我們的目標是學習一個標注模型F(x) —> y,能夠?qū)⒌趇個產(chǎn)品配置的輸入序列xi的每個詞條wij映射到一個對應的標注yij。該監(jiān)督分類任務的訓練集為S={xi, yi}。這是一個全局性的標注模型,能夠捕捉標注之間的關系,并且將整個序列作為一個整體建模。我們將這個模型稱作OpenTag。

OpenTag模型:通過序列標注提取屬性值

OpenTag模型基于最先進的命名實體識別系統(tǒng),使用雙向LSTM和條件隨機場,但是我們沒有使用任何字典和手動設計的特征。在下面的章節(jié)中,我們首先回顧這些模塊,以及我們?nèi)绾胃倪M它們以適應屬性值提取任務。隨后,我們介紹了使用注意力機制的端到端的OpenTag結(jié)構(gòu),以及主動學習來減少對標注數(shù)據(jù)的依賴。

雙向LSTM模型

雙向LSTM模型能夠分別通過前饋和反饋狀態(tài)來捕捉之前時間點和未來時間點的特征。在序列標注任務中,我們通常需要聯(lián)合考慮左邊和右邊的文本以得到更好的預測模型。使用從前向和反向LSTM中獲得的隱矢量表示,以及非線性變換,我們可以創(chuàng)建一個新的隱矢量。最后,我們通過增加一個softmax函數(shù)來預測輸入序列x中每個詞條xt的標注。

雖然雙向LSTM考慮了輸入序列的序列特性,但是沒有考慮輸出標注的性質(zhì)。因此,該模型在預測時不能考慮標注的連貫性。每個標注是獨立于其他標注完成預測的。為了解決這個問題,作者使用CRF來約束預測標注的序列特性。

條件隨機場和雙向LSTM(BiLSTM)標注序列建模

在NER任務中,傳統(tǒng)的CRF模型使用人為定義的語義特征。我們將LSTM和CRF結(jié)合起來,利用類似于分布式詞表示的語義特征。我們將BiLSTM模型產(chǎn)生的隱狀態(tài)作為CRF模型的輸入特征。我們加入一個非線性層來計算隱狀態(tài)的權重,從而捕捉不同狀態(tài)對于最終決策的重要性。

BiLSTM-CRF網(wǎng)絡可以利用(1)之前和之后時間點的特征,(2)經(jīng)由BiLSTM模型編碼入隱狀態(tài)的輸入序列的語義信息,(3)通過CRF約束的標注連續(xù)性,考慮了輸出標注之間的依賴性。

注意力機制

引入注意力機制的目的是讓模型強調(diào)重要的信息,而不是關注所有的信息。使用這種機制,我們可以強調(diào)輸入序列中對于模型的預測和進行特征選擇有重要性的詞條。

在自然語言處理領域,注意力機制在神經(jīng)機器翻譯(Natural Language Processing, NMT)中廣泛使用。NMT系統(tǒng)包括一個序列到序列的編碼解碼器。引入注意力機制后,解碼器可以將源序列的不同部分作不同處理。更重要的是,我們讓模型基于輸入序列和當前輸入來學習需要注意的部分。

在我們的模型設置中,解碼器是BiLSTM,產(chǎn)生隱狀態(tài)表示。我們引入一個注意力層,用注意力矩陣來計算輸入序列中任意詞條與所有相鄰詞條的相似性。這使得模型可以根據(jù)詞條的重要性來產(chǎn)生最終的標注決策。

詞嵌入(Word Embedding)

神經(jīng)詞嵌入是將在相似上下文中出現(xiàn)的單詞映射到內(nèi)嵌空間的相近點。這一操作形成了OpenTag的第一層。我們以屬性標簽為條件學習詞表示,并且為不同的屬性產(chǎn)生不同的詞表示。

OpenTag結(jié)構(gòu)

??

 

圖2

圖2給出了OpenTag的整體結(jié)構(gòu)。第一層是詞嵌入層,為輸入序列x的每個詞條xt產(chǎn)生一個內(nèi)嵌矢量。該矢量作為雙向LSTM層的輸入,產(chǎn)生其對應的隱狀態(tài)表示,作為前向和后向LSTM狀態(tài)的連接。BiLSTM的輸出作為注意力層的輸入,學習需要特別關注的狀態(tài),隨后產(chǎn)生帶有注意力關注的隱狀態(tài)表示。這些表示作為CRF層的輸入特征,來約束標注的連續(xù)性,以捕捉輸出標注和詞條隱狀態(tài)表示在每個時間點的依賴性。

主動學習

主動學習適用于有大量無標注數(shù)據(jù)的場景,我們可以讓學習器從無標注數(shù)據(jù)池中選擇樣本,然后再進行標注。學習器用一個很小的標注實例集作為初始訓練集L。隨后學習器使用某種搜索策略Q不斷的從未標注數(shù)據(jù)池中選擇數(shù)據(jù)進行標注。主動學習的挑戰(zhàn)在于如何設計一個好的搜索策略Q,能夠從無監(jiān)督實例集中選擇出信息增益最高的樣本。

我們采用的基線方法是最小置信度法(Least Confidence, LC)。它選擇出分類器給的置信度最低的樣本。在我們的序列標注任務中,CRF的置信度通過條件概率得到。然而這一方法有以下兩個缺點:(1)整個序列的條件概率與產(chǎn)品的連續(xù)標注轉(zhuǎn)換率成比例,因此任意詞條標注的錯誤置信度都會降低整個序列的概率,從而無法實現(xiàn)有價值的搜索,(2)盡管這個方法能夠反應詞條標注的置信度,但是只能影響少數(shù)幾個標注,對整個序列的影響較小。

標注跳躍方法(Tag Flip)

根據(jù)上述局限性,我們提出了一個新的搜索策略,將標注分給一個序列的不同詞條的困難程度來判斷這個序列的信息增益。

我們模擬一個OpenTag學習器的集群來代表與標注數(shù)據(jù)集L一致的不同假設。信息增益最高的樣本便是與集群成員分歧最大的樣本。在訓練過程中,對于每一個epoch,OpenTag學習一組不同的模型和參數(shù),來模擬學習器集群的一個成員。每一個epoch之后,我們將學到的模型和參數(shù)應用于未標注樣本池,然后記錄下系統(tǒng)給每個樣本分配的最佳標注序列。我們定義一次“跳躍”為連續(xù)的epoch中給定序列的詞條標注變化的次數(shù)。如果樣本序列詞條的標注在連續(xù)的epoch之間不停地變化,則說明OpenTag對于這個樣本不能確定,模型也是不穩(wěn)定的。因此,我們將標注跳躍次數(shù)(TF)作為衡量樣本的不確定性和模型不穩(wěn)定性的標準,然后搜索標注跳躍次數(shù)最高的樣本進行標注。

下圖給出了利用標注跳躍作為搜索策略的主動學習算法。

?

?

 

表2給出了不同采樣策略:最小置信度和標注跳躍選擇的序列結(jié)果。

?

?

 

表2

從表中可以看出,標注跳躍算法選擇的序列S2有許多錯誤標注,對該次搜索進行標注的為學習器調(diào)整參數(shù)帶來的影響要明顯大于對S1進行標注帶來的影響。

實驗

數(shù)據(jù)集

我們對3類產(chǎn)品進行試驗:(1)狗糧,(2)和(3)照相機。表3給出了不同數(shù)據(jù)集的描述和實驗設置。

?

?

 

表3

屬性值提取表現(xiàn)

基線模型:我們首先考慮了BiLSTM作為第一個基線模型。第二個是采用BiLSTM和CRF用于NER的序列標注模型。

標注方法:我們采用{B, I, O, E}標注方法。

屬性值提取結(jié)果:

?

?

 

表4

我們對比了OpenTag和上述兩個基準模型在判斷來自不同產(chǎn)品配置文件、不同屬性組在不同領域的屬性值的效果。表4給出了對比結(jié)果。我們發(fā)現(xiàn)OpenTag的F分數(shù)連續(xù)高于其他方法,達到了82.8%。在產(chǎn)品描述上,OpenTag比BiLSTM-CRF的表現(xiàn)有最大提高,提高了5.3%。

開放式預測發(fā)現(xiàn)新屬性值實驗結(jié)果:

?

?

 

表5

在這個實驗中,我們測試了OpenTag發(fā)現(xiàn)新屬性值的效果。我們將測試數(shù)據(jù)和訓練數(shù)據(jù)完全分開,確保它們不共享任何屬性值。從表5中可以看到,OpenTag在非聯(lián)合設置下表現(xiàn)良好,在發(fā)現(xiàn)新屬性值的實驗中F分數(shù)為82.4%。

聯(lián)合提取多屬性值:

OpenTag能夠通過改變標注策略聯(lián)合提取多屬性值。在實驗中,我們從狗糧產(chǎn)品標題中聯(lián)合提取了品牌、味道和容量這三個屬性值。從表4可以看出,OpenTag相比于BiLSTM-CRF基線的F分數(shù)提高了2%。

??

 

表6

由于聯(lián)合提取多屬性值能夠利用他們的分布式語義信息,因此比單獨提取的效果要好,如表6所示。盡管品牌和容量這兩個屬性值的聯(lián)合提取分數(shù)提高了,但是味道屬性的提取分數(shù)略有下降。

注意力機制與可解釋性

利用注意力給出解釋:

?

?

 

圖3

圖3給出了OpenTag在訓練過程中學習生成的注意力矩陣A的熱圖。熱圖中的每個元素代表了一個詞對于相鄰上下文的重要程度,以及它是如何影響最終決策的。例如圖中心4個白色的方塊,它們表明對應的“with”和“and”對于詞條“beef”和“liver”的標注決策是很重要的,因為這些連接詞連接了兩個相鄰的味道屬性值。

這個例子表明我們的模型學習到了連接詞的語義,以及它們對于屬性值提取的重要性。

更好的概念聚類:

?

?

 

圖4 OpenTag取得了更好的概念聚類結(jié)果。

子圖按順序顯示了注意力對輸入數(shù)據(jù)的操作得到了更好的概念聚類結(jié)果。圖4(a)顯示了在引入注意力之前詞語嵌入表示的分布。每一個點代表一個詞條,它的顏色代表一個標注{B, I, O, E}。我們發(fā)現(xiàn)不同標注的詞語最開始在內(nèi)嵌空間隨機分布。

我們通過累積對應的注意力權重為每個詞計算兩個重要性度量:(1)它對屬性詞的重要程度(估測屬性值內(nèi)詞條的{B, I, E}標注);(2)它對外部詞的重要程度(估測屬性值外部詞條{O}的標注)。對于每一次計算,我們采樣前200個最重要的單詞,圖4(b)給出了它們的分布。我們發(fā)現(xiàn)語義相關的詞在位置上也比較相近。

圖4(c)顯示了注意力機制如何將隱矢量投射到新的空間。圖中的每一個藍點代表原始隱空間的一個單詞。紅點表示注意力機制將這個單詞投影到一個新空間。同樣,我們發(fā)現(xiàn)類似的概念在投射之后變得更近了。

圖4(d)給出了經(jīng)過注意力機制的操作后詞向量的分布。與圖4(a)對比發(fā)現(xiàn),使用注意力機制之后,類似的概念(標注)有了更好的聚類和區(qū)分度。

主動學習

用保留測試集進行主動學習:

?

?

 

圖5

為了對主動學習框架進行嚴格的評估,我們使用一個保留測試集來驗證主動學習的效果。我們以少量的標注實例(50個隨機采樣的實例)作為初始標注集L。圖5給出了兩個任務的結(jié)果:(1)從調(diào)味品的產(chǎn)品標題中提取氣味屬性值;(2)從狗糧產(chǎn)品標題中提取多屬性值(品牌、容量和味道)。采用標注跳躍采樣策略的OpenTag將單屬性值提取的精度從59.5%提高到91.7%,召回率從70.7%提高到91.5%。我們也發(fā)現(xiàn),標注跳躍方法比最小置信度方法對于單屬性值提取的F分數(shù)提高了5.6%,對于多屬性值提取的F分數(shù)提高了2.2%。

沒有保留數(shù)據(jù)的主動學習:

??

 

圖6

下面我們探索主動學習在多大程度上可以減輕人為標注的負擔。我們用很少的標注實例(50個)作為初始訓練集L。我們想發(fā)現(xiàn)需要多少輪主動學習才能匹配初始訓練集大小為500的OpenTag的表現(xiàn)。如圖6所示,我們僅用了大概150個訓練實例就達到了類似的表現(xiàn)水平。這一結(jié)果表明,OpenTag結(jié)合采用TF策略的主動學習可以大量減少對標注數(shù)據(jù)的需求。

總結(jié)

這篇論文介紹了OpenTag——一個端到端的標注模型,利用了BiLSTM、CRF和注意力機制,從產(chǎn)品配置信息例如標題、描述和重點內(nèi)容中提取缺失屬性值。OpenTag不使用任何字典或者手工提取的特征。它對數(shù)據(jù)結(jié)構(gòu)也不做任何預估,因此可以用于任意一種文本數(shù)據(jù)。

OpenTag其他的優(yōu)勢在于:

(1)開放式估測(OWA):它可以發(fā)現(xiàn)系統(tǒng)未見過的新屬性,并且可以提取多詞屬性值以及多屬性提取;

(2)不規(guī)則結(jié)構(gòu)和稀疏文本:它可以處理非結(jié)構(gòu)文本,例如產(chǎn)品配置信息這種缺乏規(guī)則語法結(jié)構(gòu)、只是屬性值堆疊的文本,以及稀疏文本;

(3)有限標注數(shù)據(jù):與其他有監(jiān)督模型和神經(jīng)網(wǎng)絡不同,OpenTag所需訓練數(shù)據(jù)較少。它利用主動學習來減輕人工標注的負擔;

(4)可解釋性:OpenTag利用注意力機制來解釋它的決定。論文在不同領域的真實數(shù)據(jù)集上進行了實驗,實驗證明OpenTag可以僅從150個標注樣本中發(fā)現(xiàn)新的屬性值(降低了3.3倍的人工標注量),F(xiàn)分數(shù)高達83%,超過了當前最先進的模型。

論文原文鏈接:

https://arxiv.org/abs/1806.01264v1

標簽: 電子商務 搜索 網(wǎng)絡

版權申明:本站文章部分自網(wǎng)絡,如有侵權,請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:聊聊本屆世界杯里的新玩意兒、新科技

下一篇:ICML 2018大獎出爐:伯克利、MIT獲最佳論文,復旦大學榜上有名