Convolutional Spatial Attention Model for Reading Comprehension with Multiple-Choice Questions

译文:

Abstract

问题具有多个候选项的机器阅读理解(MRC)要求机器阅读给定的文章,并从几个候选项中选择正确答案。在本文中,我们提出了一种新的方法,称为卷积空间注意(CSA)模型,它可以更好地处理带有多个候选项的MRC。该模型能够充分提取文章、问题和候选项之间的相互信息,形成丰富的表征。此外,为了合并各种注意结果,我们建议使用卷积运算来动态总结不同区域大小内的注意值。实验结果表明,所提出的模型可以在RACE和SemEval-2018任务11数据集的最好结果上获得实质性提升。

Introduction

由于各种大规模数据集的快速发布,机器阅读理解(MRC)在自然语言处理领域得到了广泛的应用。例如,cloze-style的MRC(如CNN/DialyMail,儿童读物测试(CBT)),span-extraction MRC(如sQuad),和多选择MRC(如MCTest,RACE,semeval-2018 Task11)。

在这篇论文中,我们主要关注多选择阅读理解问题。在阅读理解研究的初期,因为没有大规模的数据集可用,这种类型的阅读理解任务并不受欢迎,因此我们不能使用神经网络方法来解决它们。为了给阅读理解任务带来更多的挑战,缓解大规模多选择阅读理解数据集的缺失,Lai等提出了一个新的数据集RACE。与之前的MCTest相比,RACE数据集是由中国的初中和高中学生的英语考试组成,由人类专家生成的近10万个问题组成,比MCTest更具挑战性。

本文提出了一种新的卷积空间注意模型(CSA),该模型充分利用了层次注意力信息对多选择阅读理解的影响。该模型首先将文章、问题和候选词编码为单词表示形式,并通过附加的词性标签和匹配特性加以增强。然后我们集中精力通过整合文章、问题信息来丰富候选项的表征,进一步计算文章、问题、候选项之间的注意,形成空间注意。为了进一步提取空间注意的代表性特征,我们提出利用卷积神经网络动态地归纳出不同窗口大小的相邻区域。我们主要在两个多选择阅读理解数据集上测试我们的CSA模型:RACE和semvar -2018 Task11,我们的模型在这两个数据集上都达到了最先进的性能。图1给出了每个数据集的示例。本文的主要贡献可以总结如下。

我们重点对候选项的不同语义方面进行建模,通过整合文章和问题信息,形成文章、问题和候选项之间的三维空间注意。

提出了一种卷积空间注意(CSA)机制,用于动态提取具有代表性的空间注意特征。

该模型对RACE和SemEval-2018 Task11数据集上的最好结果进行了实质性提升,显示了它对其他NLP任务的泛化和可扩展性。

Related Works

近年来,机器阅读理解领域取得了巨大的进步。MRC的蓬勃发展可以追溯到大规模数据集的发布,如CNN/DailyMail (Hermann et al. 2015)和CBT (Hill et al. 2015)。这些数据集发布后,各种神经网络方法(Chen, Bolton, Manning 2016;Kadlec等,2016;崔等,2017;Dhingra等(2017)被提出并成为未来研究的基础组成部分。另一个代表性的数据集是SQuAD (Rajpurkar et al. 2016),它比cloze-style阅读理解更难,需要机器在文章中生成一个跨度来回答问题。随着设计有效神经网络模型的快速进展,最近在该数据集上的工作已经超过了人类的平均性能,如QANet (Yu et al. 2018)等。

然而,目前的机器阅读理解模型仍然难以解决需要多句甚至多段推理的问题。为解决多选择阅读理解的问题,人们提出了多种解决方法,其中大多数是设计有效的注意力或更加丰富的表示。Lai等人(2017)在发布RACE dataset时,也采用并修改了两种cloze-style阅读理解模型:Gated Attention Reader (Dhingra et al. 2017)和Stanford Attention Reader (Chen, Bolton, and Manning 2016)。然而,实验结果表明,这些模型不能胜任这一任务。Parikh等人(2018)介绍了ElimiNet,它使用消除和选择的组合来获得候选对象的精确表示。Xu等(2017)提出了动态融合网络(Dynamic Fusion Networks, DFN),该网络使用多跳推理机制来完成这一任务。Zhu等人(2018)提出了分层注意流模型,该模型利用候选选项对文章、问题和候选项之间的交互进行建模。

尽管已经做了各种努力,我们相信设计有效的神经网络来更好地描述文章、问题和候选项之间的关系仍然有很大的空间。为此,我们将此任务的模型与现有模型之间的主要区别总结为三个方面。首先,我们计算候选对象的各种表示形式,以便更好地描述它的特征,以便进行预测。其次,在计算注意力时,我们使用额外的可训练权值来动态调整注意力值,这更加灵活。第三,不同于以往的工作只利用最终层次的注意力,我们提出利用每个层次中的每一个注意力,并使用卷积神经网络捕获特征来预测答案。

Convolutional Spatial Attention Model

Task Definition

提出了用于多选择阅读理解的RACE数据集(Lai等,2017),该数据集由2.8万余篇短文和近10万个由人类专家为中国中学生英语考试生成的问题组成。与之前的MCTest数据集(Richardson, Burges, and Renshaw 2013)不同,RACE数据集要大得多,因此我们可以对这个任务应用深度学习方法。由于所有的问题和选择都是由人类专家生成的,因此RACE dataset在机器阅读理解方面提供了比其他流行的数据集,如CNN/DailyMail、SQuAD数据集更全面、更真实的评估,这些数据集的答案应该出现在上下文中。同样根据Lai等人(2017)的分析,RACE问题中有很大一部分问题需要根据各种线索进行推理,这使得评价阅读理解系统的能力更具挑战性和适用性。SemEval- 2018 Task11与RACE数据集非常相似,但是有两个候选对象,而且规模较小。图1给出了每个数据集的示例。

The Model

在本节中,我们将对所提出的模型进行详细描述。我们模型的主要神经结构如图2所示。在这一节中,我们将用P代表文章,Q代表问题,C代表候选项。注意,由于对每个候选项的操作是相同的,为了简单起见,我们只选取一个候选项进行说明。

Word Representation

我们将文章中的每个单词、问题和候选词转换成连续的表示形式。在本文中,嵌入层有三个组成,如下所示。

1. Word嵌入E_{word}:我们使用传统的预训练Glove嵌入式进行初始化(Pennington, Socher, Manning 2014),并在训练过程中保持固定。

2. E_{elmo}嵌入:对于这一部分,我们使用预训练的ELMo (Peters et al. 2018)嵌入。

3. 特征嵌入E_{feat}:我们还利用三个额外的特征来增强单词的表示。

1). POS-tag embedded E_{pos}:我们使用NLTK (Bird和Loper 2004)对每个单词进行词性标注。与传统的词嵌入类似,我们为每个词性标记分配了不同的可训练向量。

2). 单词匹配F_{match}:以段落为例,如果段落中的单词也出现在问题或候选项中,我们将值设置为1,否则设置为0。通过这种方式,我们还可以将此功能添加到问题和候选项中。

3).模糊词匹配F_{fuzzy}:类似于词匹配的特征,但我们将匹配标准放宽为部分匹配。例如,我们将teacher和teach作为模糊匹配,因为字符串teacher与teach部分匹配。

我们连接三个嵌入组成形成的段落最终的词表示E_P \in \mathbb{R}^ {|P| \times e},问题

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值