中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

讓AI學(xué)會(huì)刨根問(wèn)底和放飛自我,斯坦福最新問(wèn)答數(shù)據(jù)集CoQA

2018-09-11    來(lái)源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

以往的對(duì)話問(wèn)答數(shù)據(jù)集,大多把答案限定在了給定段落的范圍內(nèi),這種答案有時(shí)候不僅不自然,而且還要依賴問(wèn)題與段落之間的詞匯相似性。導(dǎo)致機(jī)器有時(shí)答非所問(wèn),顯得有點(diǎn)笨拙。本文提出的一種新型對(duì)話數(shù)據(jù)集 CoQA,囊括來(lái)自 7 個(gè)不同領(lǐng)域的文本段落里 8000 個(gè)對(duì)話中的 127,000 輪問(wèn)答,內(nèi)容豐富。而且該問(wèn)答系統(tǒng)支持自由形式的答案,使機(jī)器回答問(wèn)題不再那么一板一眼,而是靈活多樣。

我們通常以提問(wèn)的方式來(lái)向別人求解或測(cè)試對(duì)方。然后根據(jù)對(duì)方的回答,我們會(huì)繼續(xù)提問(wèn),然后他們又基于之前的討論來(lái)回答。這種循序漸進(jìn)的方式使對(duì)話變得簡(jiǎn)潔明了。無(wú)法建立和維持這種問(wèn)答方式是虛擬助手無(wú)法成為可靠對(duì)話伙伴的部分原因。本文提出了 CoQA,一個(gè)衡量機(jī)器參與問(wèn)答式對(duì)話能力的對(duì)話問(wèn)答數(shù)據(jù)集。在 CoQA 中,機(jī)器必須理解文本段落并回答對(duì)話中出現(xiàn)的一系列問(wèn)題。研究人員開(kāi)發(fā) CoQA 時(shí)主要考慮了三個(gè)主要目標(biāo)。

 

 

圖 1:CoQA 數(shù)據(jù)集中的一個(gè)對(duì)話。每個(gè)回合都包含一個(gè)問(wèn)題(Qi),一個(gè)答案(Ai)和支持答案的理由(Ri)。

首先要考慮的是人類(lèi)對(duì)話中問(wèn)題的性質(zhì)。圖 1 顯示了正在閱讀文章的兩個(gè)人之間的對(duì)話,其中一個(gè)為提問(wèn)者,另一個(gè)為回答者。在此次對(duì)話中,第一個(gè)問(wèn)題之后的每個(gè)問(wèn)題都是基于之前的對(duì)話。例如,Q5(Who?)只有一個(gè)單詞,如果不知道之前的對(duì)話是不可能回答的。提出簡(jiǎn)短的問(wèn)題對(duì)人類(lèi)來(lái)說(shuō)是一種有效的溝通方式,但對(duì)機(jī)器來(lái)說(shuō)卻是一種痛苦。眾所周知,即使是最先進(jìn)的模型在很大程度上也要依賴于問(wèn)題與段落之間的詞匯相似性(Chen et al., 2016; Weissenborn et al., 2017)。而目前,包含基于對(duì)話歷史的問(wèn)題的大規(guī)模閱讀理解數(shù)據(jù)集(見(jiàn)表 1)仍未出現(xiàn),而這正是 CoQA 的主要開(kāi)發(fā)目的。

 

 

表 1:CoQA 與現(xiàn)有大型閱讀理解數(shù)據(jù)集的比較(約 10 萬(wàn)多個(gè)問(wèn)題)。

CoQA 的第二個(gè)目標(biāo)是確保對(duì)話中答案的自然性。很多現(xiàn)有的 QA 數(shù)據(jù)集把答案限制在給定段落的連續(xù)范圍內(nèi),也被稱之為可提取答案(表 1)。這樣的答案有時(shí)候不是很自然,例如,圖 1 中 Q4(How many?)就沒(méi)有可提取答案。在 CoQA 中,答案可以是自由形式的文本(抽象答案),而提取跨度則作為實(shí)際答案的參照。因此,Q4 的答案雖然只是簡(jiǎn)單的『Three』,但卻是參照多句話所得出的結(jié)論。

CoQA 的第三個(gè)目標(biāo)是構(gòu)建跨域穩(wěn)定執(zhí)行的 QA 系統(tǒng)。當(dāng)前的 QA 數(shù)據(jù)集主要集中在單個(gè)域上,所以難以測(cè)試現(xiàn)有模型的泛化能力。因此,研究人員從七個(gè)不同的領(lǐng)域收集數(shù)據(jù)集——兒童故事、文學(xué)、中學(xué)和高中英語(yǔ)考試、新聞、維基百科、科學(xué)和 Reddit。最后兩個(gè)用于域外評(píng)估。

總而言之,CoQA 具有以下主要特征:

通過(guò)文本段落從 8000 個(gè)對(duì)話中收集了 127,000 輪問(wèn)答(每段約一個(gè)對(duì)話)。平均會(huì)話長(zhǎng)度為 15 回合,每回合包含一個(gè)問(wèn)題和一個(gè)答案。

自由形式的答案。每個(gè)答案都有一個(gè)提取理由,在段落中突出顯示。

文本段落來(lái)自七個(gè)不同的領(lǐng)域——五個(gè)用于域內(nèi)評(píng)估,兩個(gè)用于域外評(píng)估。

幾乎有一半的 CoQA 問(wèn)題使用共指關(guān)系回溯到會(huì)話歷史,并且很大一部分需要語(yǔ)用推理,這導(dǎo)致僅依賴詞匯線索的模型更具挑戰(zhàn)性。研究人員對(duì)生成抽象答案和可提取答案(第 5 節(jié))的深度神經(jīng)網(wǎng)絡(luò)模型進(jìn)行了基準(zhǔn)測(cè)試。表現(xiàn)最佳的系統(tǒng)是一種可以預(yù)測(cè)提取原理,并將原理進(jìn)一步輸入生成最終答案的序列到序列模型中的閱讀理解模型,該閱讀理解模型獲得 65.1%的 F1 分?jǐn)?shù)。相比之下,人類(lèi)實(shí)現(xiàn)了 88.8%的 F1,比模型高出了 23.7%,這表明它有很大的提升空間。此外,人類(lèi)的強(qiáng)勁表現(xiàn)表明,與閑聊對(duì)話(它支持更可靠的自動(dòng)評(píng)估)相比,CoQA 的回答空間要小得多(Ritter et al., 2011; Vinyals and Le, 2015; Sordoni et al., 2015)。

論文:CoQA: A Conversational Question Answering Challenge

 

 

論文地址:https://arxiv.org/abs/1808.07042

摘要:人類(lèi)通過(guò)參與一系列問(wèn)題和答案相互關(guān)聯(lián)的對(duì)話來(lái)收集信息。因此協(xié)助我們收集信息的機(jī)器,也必須能夠回答對(duì)話問(wèn)題。我們介紹了一個(gè)用于構(gòu)建對(duì)話問(wèn)答系統(tǒng)的新數(shù)據(jù)集 CoQA。該數(shù)據(jù)集包含來(lái)自 7 個(gè)不同領(lǐng)域的文本段落里 8000 個(gè)對(duì)話中的 127,000 輪問(wèn)答。問(wèn)題是會(huì)話形式,而答案是自由形式的文本,并在段落中突出顯示相應(yīng)的依據(jù)。我們深入分析了 CoQA,發(fā)現(xiàn)會(huì)話問(wèn)題具有現(xiàn)有閱讀理解數(shù)據(jù)集所沒(méi)有的挑戰(zhàn)性現(xiàn)象,例如共指關(guān)系和實(shí)用推理。我們?cè)?CoQA 上評(píng)估強(qiáng)大的對(duì)話和閱讀理解模型。表現(xiàn)最佳的系統(tǒng)獲得了 65.1%的 F1 分?jǐn)?shù),與人類(lèi)相比低了 23.7%,這表明它有很大的改善空間。作為一種挑戰(zhàn),我們?cè)趆ttp://stanfordnlp.github.io/coqa/ 社區(qū)上推出了 CoQA。

任務(wù)定義

對(duì)于圖 2 中的示例,對(duì)話從問(wèn)題 Q1 開(kāi)始。我們根據(jù)段落中的依據(jù) R1 用 A1 回答 Q1。在這個(gè)例子中,回答者只寫(xiě)了 Governor 作為答案,但選擇了很長(zhǎng)的依據(jù)——「The Virginia governor’s race」。

下面來(lái)看 Q2(Where?),我們必須回顧對(duì)話歷史,否則它的答案可能是 Virginia 或 Richmond 或其它。在我們的任務(wù)中,回答很多問(wèn)題都需要對(duì)話歷史。我們使用對(duì)話歷史 Q1 和 A1,基于依據(jù) R2 用 A2 回答 Q2。按公式來(lái)講,回答問(wèn)題 Qn 要根據(jù)對(duì)話歷史 Q1,A1 ……Qn-1,An-1。對(duì)于一個(gè)無(wú)法回答的問(wèn)題,我們將未知作為最終答案,并且不選擇任何理由。

在這個(gè)例子中,我們觀察到焦點(diǎn)實(shí)體(entity of focus)隨著對(duì)話的進(jìn)行而改變。提問(wèn)者使用 his 指代 Q4 中的 Terry,he 指代 Q5 中的 Ken。如果這些問(wèn)題得不到解決,我們最終將會(huì)得到錯(cuò)誤答案。問(wèn)題的對(duì)話性質(zhì)要求我們根據(jù)多個(gè)句子(當(dāng)前問(wèn)題和之前的問(wèn)題或答案,以及段落中的句子)來(lái)推理。通常,單個(gè)問(wèn)題的參照可能會(huì)跨越多個(gè)句子(例如,圖 1 中的 Q1,Q4 和 Q5)。我們?cè)诘?4 節(jié)中描述了其它問(wèn)答類(lèi)型。

 

 

圖 2:用不同的顏色表示共指關(guān)系鏈的對(duì)話。焦點(diǎn)實(shí)體在 Q4,Q5,Q6 中發(fā)生變化。

 

 

表 2:CoQA 中域的分布

數(shù)據(jù)集分析

 

 

圖 3:SQUAD 和 CoQA 里問(wèn)題中前三個(gè)詞的分布情況。

 

 

表 3:SQUAD 和 CoQA 中段落、問(wèn)題和答案的平均單詞數(shù)。

 

 

表 4:SQuAD 和 CoQA 中答案類(lèi)型的分布。

 

 

表 5:CoQA 問(wèn)題中的語(yǔ)言現(xiàn)象。

 

 

表 6:模型和人類(lèi)在開(kāi)發(fā)數(shù)據(jù)和測(cè)試數(shù)據(jù)上的表現(xiàn)(F1 得分)。

表 6 列出了模型在開(kāi)發(fā)數(shù)據(jù)和測(cè)試數(shù)據(jù)上的結(jié)果。根據(jù)測(cè)試集上的結(jié)果,seq2seq 模型表現(xiàn)最差,有些答案不管有沒(méi)有出現(xiàn)在段落中,都會(huì)頻繁出現(xiàn),這是一種眾所周知的對(duì)話模型行為(Li et al., 2016)。PGNet 通過(guò)關(guān)注文章中的詞匯來(lái)緩解反應(yīng)頻繁的問(wèn)題,優(yōu)于 seq2seq 17.8 個(gè)百分點(diǎn)。然而,它仍然落后于 DrQA 8.5 個(gè)百分點(diǎn)。原因可能是 PGNet 在回答問(wèn)題之前必須記住整個(gè)段落,而 DrQA 避免了這項(xiàng)巨大開(kāi)銷(xiāo)。但 DrQA 在回復(fù)自由形式答案的問(wèn)題時(shí)不理想(參見(jiàn)表 7 中的 Abstractive 行)。當(dāng) DrQA 被輸入 PGNet 時(shí),我們授權(quán) DrQA 和 PGNet - DrQA 生成自由形式的答案; PGNet 專注于參照而不是段落。這種組合比經(jīng)典 PGNet 和 DrQA 模型分別要強(qiáng) 21.0% 和 12.5%。

結(jié)論

在本文中,我們介紹了 CoQA,一個(gè)用于構(gòu)建對(duì)話問(wèn)答系統(tǒng)的大型數(shù)據(jù)集。與現(xiàn)有的閱讀理解數(shù)據(jù)集不同,CoQA 包含對(duì)話問(wèn)題,自然答案,作為參照的提取跨度,以及來(lái)自不同領(lǐng)域的文本段落。我們的實(shí)驗(yàn)表明,現(xiàn)有的對(duì)話和閱讀理解模型在 CoQA 上的表現(xiàn)不如人類(lèi)。我們希望這項(xiàng)工作能夠激發(fā)更多有關(guān)會(huì)話建模的研究,這是實(shí)現(xiàn)人機(jī)自然交互的關(guān)鍵因素。

標(biāo)簽: 網(wǎng)絡(luò)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:從數(shù)據(jù)中心無(wú)人化趨勢(shì)看資產(chǎn)管理的發(fā)展和實(shí)踐

下一篇:數(shù)據(jù)科學(xué)究竟是什么?