论文笔记《Gated-Attention Readers for Text Comprehension》

最新推荐文章于 2025-02-24 10:56:27 发布

苏何月下追韩信丶

最新推荐文章于 2025-02-24 10:56:27 发布

阅读量1.4k

点赞数

CC 4.0 BY-SA版权

分类专栏：阅读理解论文笔记

本文链接：https://blog.youkuaiyun.com/u010995990/article/details/79457925

论文《Gated-Attention Readers for Text Comprehension》提出GA Reader模型，使用GRU并引入新的注意力机制。模型通过双向GRU处理query和doc，然后通过K层网络进行对位相乘的element-wise运算，其中每个层的输入都与上一层的输出和queryEmb进行element-wise运算。注意力机制由queryEmb与docEmb的hadamard product得到，并通过softmax处理。当K=1时，GA Reader类似于AS Reader。该模型的主要创新在于其attention机制，区别于传统的加权平均方式。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

来源1606.01549

这篇论文提出的模型叫做GA Reader,用的是GRU,GRU中的两个门及候选状态的推理公式如下：

GA Reader的实现思路为：
1，对于query首先也是用双向GRU处理，然后分别获取最后的状态concate一起。
2，对于doc也是用双向GRU处理，但是是输出每个时刻的Hidden，最后concate在一起。
3，然后用一个K层网络来处理，网络第一层是1，2步处理的query_emb和doc_emb对位相乘，也就是element-wise运算，假设得到的是temp_doc,然后这个temp_doc会输出到第二层，第二层完成的运算仍然是temp_doc和query_emb的对位相乘。如此循环下去。也就是说，K层会接收从K-1层来的temp_doc，然后仍然和query_doc进行element-wise运算。
4，其实与doc进行element-wise的并不是最初输出的query_doc，而是经过了一些处理的，如下面截图中3.1.2中红圈圈出来的部分，先用query_emb和doc_emb进行乘积后，再用siftmax处理获得attention，然后把这个attention与query_doc成绩后得到的query_temp,最后在用这个query_temp与doc_emb进行element-wise运算
5，K层模型的最后一层，获取到query_emb和doc_e