Attention-over-Attention Neural Network for Reading Comprehension----神经网络在阅读理解上的应用

本文介绍了Attention-over-Attention Neural Network如何应用于阅读理解任务,特别是完形填空。论文中提到的数据集包括CNN/Daily Mail和CBTest,模型通过Contextual Embedding、双向RNN和注意力机制进行文本表示。最后,提出了N-best Re-ranking Strategy,结合全局、局部n-gram和word-class语言模型进行答案预测。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

原文链接:https://arxiv.org/pdf/1607.04423.pdf

本片论文主要讲了Attention Model在完形填空类的阅读理解上的应用。(以下是我的个人理解,如有错误,欢迎指正)

使用数据集:

1、CNN/Daliy Mail新闻数据集,将一整篇新闻文档作为完形填空的文本(Document),然后将其新闻摘要中的一句话去掉一个词之后作为查询(Query),去掉的那个词作为答案(Answer)。

2、Children’s Book Test(CBTest)儿童读物数据集:前面连续的20句话作为Document,第21句话作为Query,去掉的一个词为Answer。

Attention-over-Attention Model

(1) 首先,数据集可以表示为三元组的形式<D, Q, A>

(2)Contextual Embedding

将document 和 query中的每个单词表示成one-hot的形式,然后引入一个共享的embedding矩阵We (个人认为也可以使用word2vec词向量初始化,在后续的过程中参与神经网络的训练)

使用双向RNN(GRU)表示文本的embedding,具体公式如下图所示:



其中document 和query的文本embedding维度分别为   ,其中|D|. |Q|分别表示document和query的长度

(2)权值矩阵



其中M(i,j)为document的第I个单词向量和query的第j个单词向量的点乘

(3)column-wise softmax

可以认为是query-to-document 的attention



(4)row-wise softmax

认为document-to-query的attention




(5)融合



(6)预测







Attention-over-Attention Model

N-best Re-ranking Strategy 

在选择答案的过程中可以选择几个候选答案,然后通过打分比较

打分标准:

1、全局n-gram 语言模型:使用全部训练集为document打分

2、局部n-gram语言模型:使用验证集为document打分

3、word-class 语言模型:word class 可以通过聚类获得,使用全部训练集为document打分




评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值