中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

最佳短論文SQuAD 2.0:斯坦福大學(xué)發(fā)布的機(jī)器閱讀理解問(wèn)答數(shù)據(jù)集

2018-06-14    來(lái)源:

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用
近日,ACL 2018 公布最佳論文名單,《Know What You Don't Know: Unanswerable Questions for SQuAD》榮獲這次大會(huì)的最佳短論文,Percy Liang等研究者介紹了機(jī)器閱讀理解問(wèn)答數(shù)據(jù)集 SQuAD 的新版本 SQuAD 2.0,其引入了與 SQuAD 1.1 中可回答問(wèn)題類(lèi)似的不可回答問(wèn)題,難度高于 SQuAD 1.1。

代碼、數(shù)據(jù)、實(shí)驗(yàn)地址:https://worksheets.codalab.org/worksheets/0x9a15a170809f4e2cb7940e1f256dee55/

機(jī)器閱讀理解已成為自然語(yǔ)言理解的中心任務(wù),這得益于大量大規(guī)模數(shù)據(jù)集的創(chuàng)建(Hermann 等,2015;Hewlett 等,2016;Rajpurkar 等,2016;Nguyen 等,2016;trischler 等,2017;Joshi 等,2017)。反過(guò)來(lái),這些數(shù)據(jù)集又促進(jìn)各種模型架構(gòu)的改進(jìn)(Seo 等,2016;Hu 等,2017;Wang 等,2017;Clark 和 Gardner,2017;Huang 等,2018)。近期研究甚至在斯坦福問(wèn)答數(shù)據(jù)集(SQuAD)上產(chǎn)生了超越人類(lèi)水平精確匹配準(zhǔn)確率的系統(tǒng),SQuAD 是應(yīng)用最廣泛的閱讀理解基準(zhǔn)數(shù)據(jù)集之一(Rajpurkar 等,2016)。

盡管如此,這些系統(tǒng)還遠(yuǎn)沒(méi)有真正地理解語(yǔ)言。最近的分析顯示,通過(guò)學(xué)習(xí)語(yǔ)境和類(lèi)型匹配啟發(fā)式方法,模型可以在 SQuAD 數(shù)據(jù)集上實(shí)現(xiàn)良好的性能,而在 SQuAD 上的成功并不能保證模型在分散句子(distracting sentence)上的穩(wěn)健性(Jia 和 Liang,2017)。造成這些問(wèn)題的一個(gè)根本原因是 SQuAD 的重點(diǎn)是確保在語(yǔ)境文檔中有正確答案的問(wèn)題。因此,模型只需要選擇與問(wèn)題最相關(guān)的文本范圍,而不需要檢查答案是否實(shí)際蘊(yùn)涵在文本中。

在本論文研究中,研究者構(gòu)建了一個(gè)新的數(shù)據(jù)集 SQuAD 2.0,它將以前版本的 SQuAD(SQuAD 1.1)上可回答的問(wèn)題與 53775 個(gè)關(guān)于相同段落的、無(wú)法回答的新問(wèn)題相結(jié)合。眾包工作人員精心設(shè)計(jì)這些問(wèn)題,以便它們與段落相關(guān),并且段落包含一個(gè)貌似合理的答案——與問(wèn)題所要求的類(lèi)型相同。圖 1 展示了兩個(gè)這樣的例子。

 

圖 1:兩個(gè)無(wú)法回答問(wèn)題的示例,與貌似合理(但并不正確)的答案。藍(lán)色字是關(guān)聯(lián)性關(guān)鍵詞。研究者證實(shí) SQuAD 2.0 既有挑戰(zhàn)性又有高質(zhì)量。一個(gè)當(dāng)前最優(yōu)的模型在 SQuAD 2.0 上訓(xùn)練和測(cè)試時(shí)只獲得 66.3% 的 F1 得分,而人的準(zhǔn)確率是 89.5% F1,高出整整 23.2 個(gè)百分點(diǎn)。同樣的模型在 SQuAD 1.1 上訓(xùn)練時(shí)得到 85.8% F1,僅比人類(lèi)低 5.4 個(gè)百分點(diǎn)。研究者還證明,無(wú)法回答的問(wèn)題比通過(guò)遠(yuǎn)程監(jiān)督(Clark 和 Gardner,2017)或基于規(guī)則的方法(Jia 和 Liang,2017)自動(dòng)生成的問(wèn)題更具挑戰(zhàn)性。研究者公開(kāi)發(fā)布 SQuAD 數(shù)據(jù)集新版本 SQuAD 2.0,并使之成為 SQuAD 排行榜的主要基準(zhǔn)。他們樂(lè)觀地認(rèn)為,這個(gè)新數(shù)據(jù)集將鼓勵(lì)開(kāi)發(fā)閱讀理解系統(tǒng),以了解其不知道的內(nèi)容。

 

4 SQuAD 2.0

4.1 創(chuàng)建數(shù)據(jù)集

研究者在 Daemo 眾包平臺(tái)招募眾包工作者來(lái)寫(xiě)無(wú)法回答的問(wèn)題。每個(gè)任務(wù)包括 SQuAD 1.1 中的一整篇文章。對(duì)于文章中的每個(gè)段落,眾包工作者需要提出五個(gè)僅僅基于該段落不可能回答的問(wèn)題,同時(shí)這些問(wèn)題要引用該段落中的實(shí)體,且確保有一個(gè)貌似合理的答案。研究者還展示了 SQuAD 1.1 中每個(gè)段落的問(wèn)題,這進(jìn)一步鼓勵(lì)眾包工作者寫(xiě)出與可回答問(wèn)題看起來(lái)類(lèi)似的不可回答問(wèn)題。要求眾包工作者在每個(gè)段落上費(fèi)時(shí) 7 分鐘,他們的時(shí)薪是 10.5 美元。

若工作者在一篇文章上只寫(xiě)出 25 個(gè)或者更少問(wèn)題,研究者將刪除這些問(wèn)題,以去除不理解任務(wù)、并在完成整篇文章前就已經(jīng)放棄的工作者所產(chǎn)生的噪聲。研究者將這一過(guò)濾機(jī)制應(yīng)用于新數(shù)據(jù)和 SQuAD 1.1 中的已有可回答問(wèn)題。為了生成訓(xùn)練、開(kāi)發(fā)和測(cè)試集,研究者使用和 SQuAD 1.1 相同的文章分割方法,并在每次分割時(shí)都結(jié)合已有數(shù)據(jù)和新數(shù)據(jù)。對(duì)于 SQuAD 2.0 開(kāi)發(fā)集和測(cè)試集,研究者刪除了沒(méi)有收集到無(wú)法回答問(wèn)題的文章。這導(dǎo)致在開(kāi)發(fā)集和測(cè)試集分割中產(chǎn)生的可回答問(wèn)題和不可回答問(wèn)題的比例大致為 1:1,而訓(xùn)練數(shù)據(jù)中可回答問(wèn)題與不可回答問(wèn)題的比例大致為 2:1。SQuAD 2.0 數(shù)據(jù)統(tǒng)計(jì)結(jié)果見(jiàn)表 2:

 

表 2:SQuAD 2.0 的數(shù)據(jù)集統(tǒng)計(jì)結(jié)果及其與 SQuAD 1.1 的對(duì)比。5 實(shí)驗(yàn)

 

 

表 3:在 SQuAD 1.1 和 2.0 上的精確匹配(EM)和 F1 得分。人類(lèi)與最優(yōu)模型的表現(xiàn)在 SQuAD 2.0 上差距更大,這表明該模型有很大改進(jìn)空間。
表 4:在 SQuAD 2.0 開(kāi)發(fā)集上的精確匹配(EM)和 F1 得分,及其與在具備兩種自動(dòng)生成負(fù)樣本的 SQuAD 1.1 上的 EM 和 F1 得分對(duì)比。對(duì)于當(dāng)前模型來(lái)說(shuō),SQuAD 2.0 更具挑戰(zhàn)性。論文:Know What You Don't Know: Unanswerable Questions for SQuAD

 

 

 

論文鏈接:https://arxiv.org/pdf/1806.03822.pdf

摘要:提取式閱讀理解系統(tǒng)(Extractive reading comprehension system)通常在語(yǔ)境文檔中定位問(wèn)題的正確答案,但是它們可能會(huì)對(duì)正確答案不在語(yǔ)境文檔內(nèi)的問(wèn)題進(jìn)行不可靠的猜測(cè)。現(xiàn)有數(shù)據(jù)集要么只關(guān)注可回答的問(wèn)題,要么使用自動(dòng)生成的無(wú)法回答的問(wèn)題,這些問(wèn)題很容易識(shí)別。為了解決這些問(wèn)題,我們創(chuàng)建了 SQuAD 2.0——斯坦福問(wèn)答數(shù)據(jù)集(SQuAD)的最新版本。SQuAD 2.0 將已有的 SQuAD 數(shù)據(jù)和超過(guò) 5 萬(wàn)個(gè)對(duì)抗性的無(wú)法回答的問(wèn)題結(jié)合起來(lái),后者是通過(guò)眾包工作者根據(jù)與可回答問(wèn)題類(lèi)似的方式寫(xiě)成的。為了在 SQuAD 2.0 上實(shí)現(xiàn)良好的性能,系統(tǒng)不僅必須回答問(wèn)題,還要確定何時(shí)語(yǔ)境段落中沒(méi)有答案、可以放棄回答問(wèn)題。SQuAD 2.0 對(duì)現(xiàn)有模型來(lái)說(shuō)是一個(gè)很有難度的自然語(yǔ)言處理任務(wù):一個(gè)在 SQuAD 1.1 上得到 86% 的 F1 得分的強(qiáng)大神經(jīng)系統(tǒng)在 SQuAD 2.0 上僅得到 66% 的 F1 得分。

標(biāo)簽: https seo 代碼 選擇

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:知乎:源自社區(qū)又服務(wù)于社區(qū)的AI技術(shù)

下一篇:什么是模塊化數(shù)據(jù)中心,模塊化數(shù)據(jù)中心有什么