最佳短論文SQuAD 2.0：斯坦福大學(xué)發(fā)布的機(jī)器閱讀理解問(wèn)答數(shù)據(jù)集

2018-06-14 來(lái)源：

容器云強(qiáng)勢(shì)上線！快速搭建集群，上萬(wàn)Linux鏡像隨意使用

近日，ACL 2018 公布最佳論文名單，《Know What You Don't Know: Unanswerable Questions for SQuAD》榮獲這次大會(huì)的最佳短論文，Percy Liang等研究者介紹了機(jī)器閱讀理解問(wèn)答數(shù)據(jù)集 SQuAD 的新版本 SQuAD 2.0，其引入了與 SQuAD 1.1 中可回答問(wèn)題類(lèi)似的不可回答問(wèn)題，難度高于 SQuAD 1.1。

代碼、數(shù)據(jù)、實(shí)驗(yàn)地址：https://worksheets.codalab.org/worksheets/0x9a15a170809f4e2cb7940e1f256dee55/

機(jī)器閱讀理解已成為自然語(yǔ)言理解的中心任務(wù)，這得益于大量大規(guī)模數(shù)據(jù)集的創(chuàng)建(Hermann 等，2015;Hewlett 等，2016;Rajpurkar 等，2016;Nguyen 等，2016;trischler 等，2017;Joshi 等，2017)。反過(guò)來(lái)，這些數(shù)據(jù)集又促進(jìn)各種模型架構(gòu)的改進(jìn)(Seo 等，2016;Hu 等，2017;Wang 等，2017;Clark 和 Gardner，2017;Huang 等，2018)。近期研究甚至在斯坦福問(wèn)答數(shù)據(jù)集(SQuAD)上產(chǎn)生了超越人類(lèi)水平精確匹配準(zhǔn)確率的系統(tǒng)，SQuAD 是應(yīng)用最廣泛的閱讀理解基準(zhǔn)數(shù)據(jù)集之一(Rajpurkar 等，2016)。

盡管如此，這些系統(tǒng)還遠(yuǎn)沒(méi)有真正地理解語(yǔ)言。最近的分析顯示，通過(guò)學(xué)習(xí)語(yǔ)境和類(lèi)型匹配啟發(fā)式方法，模型可以在 SQuAD 數(shù)據(jù)集上實(shí)現(xiàn)良好的性能，而在 SQuAD 上的成功并不能保證模型在分散句子(distracting sentence)上的穩(wěn)健性(Jia 和 Liang，2017)。造成這些問(wèn)題的一個(gè)根本原因是 SQuAD 的重點(diǎn)是確保在語(yǔ)境文檔中有正確答案的問(wèn)題。因此，模型只需要選擇與問(wèn)題最相關(guān)的文本范圍，而不需要檢查答案是否實(shí)際蘊(yùn)涵在文本中。

在本論文研究中，研究者構(gòu)建了一個(gè)新的數(shù)據(jù)集 SQuAD 2.0，它將以前版本的 SQuAD(SQuAD 1.1)上可回答的問(wèn)題與 53775 個(gè)關(guān)于相同段落的、無(wú)法回答的新問(wèn)題相結(jié)合。眾包工作人員精心設(shè)計(jì)這些問(wèn)題，以便它們與段落相關(guān)，并且段落包含一個(gè)貌似合理的答案——與問(wèn)題所要求的類(lèi)型相同。圖 1 展示了兩個(gè)這樣的例子。

圖 1：兩個(gè)無(wú)法回答問(wèn)題的示例，與貌似合理(但并不正確)的答案。藍(lán)色字是關(guān)聯(lián)性關(guān)鍵詞。研究者證實(shí) SQuAD 2.0 既有挑戰(zhàn)性又有高質(zhì)量。一個(gè)當(dāng)前最優(yōu)的模型在 SQuAD 2.0 上訓(xùn)練和測(cè)試時(shí)只獲得 66.3% 的 F1 得分，而人的準(zhǔn)確率是 89.5% F1，高出整整 23.2 個(gè)百分點(diǎn)。同樣的模型在 SQuAD 1.1 上訓(xùn)練時(shí)得到 85.8% F1，僅比人類(lèi)低 5.4 個(gè)百分點(diǎn)。研究者還證明，無(wú)法回答的問(wèn)題比通過(guò)遠(yuǎn)程監(jiān)督(Clark 和 Gardner，2017)或基于規(guī)則的方法(Jia 和 Liang，2017)自動(dòng)生成的問(wèn)題更具挑戰(zhàn)性。研究者公開(kāi)發(fā)布 SQuAD 數(shù)據(jù)集新版本 SQuAD 2.0，并使之成為 SQuAD 排行榜的主要基準(zhǔn)。他們樂(lè)觀地認(rèn)為，這個(gè)新數(shù)據(jù)集將鼓勵(lì)開(kāi)發(fā)閱讀理解系統(tǒng)，以了解其不知道的內(nèi)容。

4 SQuAD 2.0

4.1 創(chuàng)建數(shù)據(jù)集

研究者在 Daemo 眾包平臺(tái)招募眾包工作者來(lái)寫(xiě)無(wú)法回答的問(wèn)題。每個(gè)任務(wù)包括 SQuAD 1.1 中的一整篇文章。對(duì)于文章中的每個(gè)段落，眾包工作者需要提出五個(gè)僅僅基于該段落不可能回答的問(wèn)題，同時(shí)這些問(wèn)題要引用該段落中的實(shí)體，且確保有一個(gè)貌似合理的答案。研究者還展示了 SQuAD 1.1 中每個(gè)段落的問(wèn)題，這進(jìn)一步鼓勵(lì)眾包工作者寫(xiě)出與可回答問(wèn)題看起來(lái)類(lèi)似的不可回答問(wèn)題。要求眾包工作者在每個(gè)段落上費(fèi)時(shí) 7 分鐘，他們的時(shí)薪是 10.5 美元。

若工作者在一篇文章上只寫(xiě)出 25 個(gè)或者更少問(wèn)題，研究者將刪除這些問(wèn)題，以去除不理解任務(wù)、并在完成整篇文章前就已經(jīng)放棄的工作者所產(chǎn)生的噪聲。研究者將這一過(guò)濾機(jī)制應(yīng)用于新數(shù)據(jù)和 SQuAD 1.1 中的已有可回答問(wèn)題。為了生成訓(xùn)練、開(kāi)發(fā)和測(cè)試集，研究者使用和 SQuAD 1.1 相同的文章分割方法，并在每次分割時(shí)都結(jié)合已有數(shù)據(jù)和新數(shù)據(jù)。對(duì)于 SQuAD 2.0 開(kāi)發(fā)集和測(cè)試集，研究者刪除了沒(méi)有收集到無(wú)法回答問(wèn)題的文章。這導(dǎo)致在開(kāi)發(fā)集和測(cè)試集分割中產(chǎn)生的可回答問(wèn)題和不可回答問(wèn)題的比例大致為 1:1，而訓(xùn)練數(shù)據(jù)中可回答問(wèn)題與不可回答問(wèn)題的比例大致為 2:1。SQuAD 2.0 數(shù)據(jù)統(tǒng)計(jì)結(jié)果見(jiàn)表 2：

表 2：SQuAD 2.0 的數(shù)據(jù)集統(tǒng)計(jì)結(jié)果及其與 SQuAD 1.1 的對(duì)比。5 實(shí)驗(yàn)

表 3：在 SQuAD 1.1 和 2.0 上的精確匹配(EM)和 F1 得分。人類(lèi)與最優(yōu)模型的表現(xiàn)在 SQuAD 2.0 上差距更大，這表明該模型有很大改進(jìn)空間。

表 4：在 SQuAD 2.0 開(kāi)發(fā)集上的精確匹配(EM)和 F1 得分，及其與在具備兩種自動(dòng)生成負(fù)樣本的 SQuAD 1.1 上的 EM 和 F1 得分對(duì)比。對(duì)于當(dāng)前模型來(lái)說(shuō)，SQuAD 2.0 更具挑戰(zhàn)性。論文：Know What You Don't Know: Unanswerable Questions for SQuAD

論文鏈接：https://arxiv.org/pdf/1806.03822.pdf

摘要：提取式閱讀理解系統(tǒng)(Extractive reading comprehension system)通常在語(yǔ)境文檔中定位問(wèn)題的正確答案，但是它們可能會(huì)對(duì)正確答案不在語(yǔ)境文檔內(nèi)的問(wèn)題進(jìn)行不可靠的猜測(cè)。現(xiàn)有數(shù)據(jù)集要么只關(guān)注可回答的問(wèn)題，要么使用自動(dòng)生成的無(wú)法回答的問(wèn)題，這些問(wèn)題很容易識(shí)別。為了解決這些問(wèn)題，我們創(chuàng)建了 SQuAD 2.0——斯坦福問(wèn)答數(shù)據(jù)集(SQuAD)的最新版本。SQuAD 2.0 將已有的 SQuAD 數(shù)據(jù)和超過(guò) 5 萬(wàn)個(gè)對(duì)抗性的無(wú)法回答的問(wèn)題結(jié)合起來(lái)，后者是通過(guò)眾包工作者根據(jù)與可回答問(wèn)題類(lèi)似的方式寫(xiě)成的。為了在 SQuAD 2.0 上實(shí)現(xiàn)良好的性能，系統(tǒng)不僅必須回答問(wèn)題，還要確定何時(shí)語(yǔ)境段落中沒(méi)有答案、可以放棄回答問(wèn)題。SQuAD 2.0 對(duì)現(xiàn)有模型來(lái)說(shuō)是一個(gè)很有難度的自然語(yǔ)言處理任務(wù)：一個(gè)在 SQuAD 1.1 上得到 86% 的 F1 得分的強(qiáng)大神經(jīng)系統(tǒng)在 SQuAD 2.0 上僅得到 66% 的 F1 得分。

標(biāo)簽： https seo 代碼選擇

版權(quán)申明：本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請(qǐng)聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)！
本站所提供的圖片等素材，版權(quán)歸原作者所有，如需使用，請(qǐng)與原作者聯(lián)系。

上一篇:知乎：源自社區(qū)又服務(wù)于社區(qū)的AI技術(shù)

下一篇:什么是模塊化數(shù)據(jù)中心，模塊化數(shù)據(jù)中心有什么

相關(guān)文章

最新資訊

熱門(mén)推薦

為學(xué)習(xí)和知識(shí)分享目的，本站文章部分自網(wǎng)絡(luò)，本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請(qǐng)聯(lián)系：2653426586@qq.com QQ：2653426586

如有其他需求，請(qǐng)聯(lián)系：2653426586@qq.com QQ：2653426586

友情鏈接：網(wǎng)絡(luò)安全運(yùn)維經(jīng)驗(yàn) IT技術(shù)分享運(yùn)維隨筆錄鮮花東郊到家往約到家

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

最佳短論文SQuAD 2.0：斯坦福大學(xué)發(fā)布的機(jī)器閱讀理解問(wèn)答數(shù)據(jù)集