【一起读ACL论文】Attention-over-Attention Neural Networks for Reading Comprehension

本文介绍了一种针对完形填空式阅读理解的模型,该模型通过双向考虑文档和提问的关系来提升理解准确率。它使用GRU进行文档和提问的embedding,并计算Pair-wise Matching Score来衡量二者间词语的相关度。进一步通过计算attention值来确定文档中词语的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一种针对完形填空式阅读理解的模型。综合来看,大概是双向考虑了文档->提问和提问->文档的关系。思想和实现都是非常简单的,从实验结果来看效果不错。而且也容易扩展到其他模型上。

这里写图片描述

整个模型如上图所示。大概分为三个部分:

  1. 和传统模型类似,先把Document和Query都embedding出来(用的是GRU)。

    根据向量表示计算出一个矩阵表示,记为Pair-wise Matching Score. 表示查询的词语和文档词语之间的相关度。

    M(i,j)=hdoc(i)Thquery(j)M(i,j)=hdoc(i)T∗hquery(j)

  2. 计算出两个attention值出来,大概就是分别对矩阵的每一列和每一行做softmax。分别计算出query-to-document attention 和 document-to-query attention。

    α(t)=softmax(M(1,t),..,M(n,t))α(t)=softmax(M(1,t),..,M(n,t))

    β(t)=softmax(M(t,1),..,M(t,m))β(t)=softmax(M(t,1),..,M(t,m))

    在对每一行softmax之后,还需要对每一列得到的值取一个平均值。由此得到query-level attention。

    β=1nnt=1β(t)β=1n∑t=1nβ(t)

    用每个 query-to-document attention 和刚刚得到的 query-level attention 做点乘,得到 document 中每个词的 score。

    s=αTβs=αT∗β

  3. 最后合并相同的词语。并计算出每个词语的score

    P(w|D,Q)=siP(w|D,Q)=∑si

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值