paper解读：Bi-Directional Attention Flow For Machine Comprehension

最新推荐文章于 2022-11-16 15:26:23 发布

原创

最新推荐文章于 2022-11-16 15:26:23 发布 · 654 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#自然语言处理

本文介绍了一种基于双向注意力机制的阅读理解模型，该模型在ICLR2017发表，已被广泛引用。通过结合query和context的多级特征，模型能够更准确地理解和定位答案。论文详细讲解了模型的六大部分，包括字符嵌入、词嵌入、上下文嵌入、注意力流、建模和输出层。双向注意力流层通过计算query和context之间的相似度矩阵，实现query到context和context到query的注意力，从而捕捉关键信息。

基于双向注意力的阅读理解（ICLR2017，引用800多，入门阅读理解可以看这篇）
paper: https://arxiv.org/abs/1611.01603
code: https://github.com/allenai/bi-att-flow

模型框架

模型主要框架如下图所示：
在这里插入图片描述

包括六个部分：
Character Embedding Layer：使用character-level CNNs将词转换成向量；
Word Embedding Layer：使用预训练的word embedding模型将词转换成向量，如glove等；
Contextual Embedding Layer：利用周围单词的上下文提示来完善单词的嵌入，如Bi-LSTM。同时应用于query和context;
Attention Flow Layer:将query向量和context向量耦合，包括query2context attention和context2query attention；
Modeling Layer：使用RNN模型学习上下文表示；
Output Layer：得到query的答案。
值得注意的是，前三步在不同粒度下计算query和context的特征，这有点像计算机视觉领域的CNN中的多阶段特征计算的过程。

双向注意力流

下面具体讲一下Attention Flow Layer.
在这一步中，作者计算两个方向的attention：从context到query以及query到context。这两个方向的attention都基于相同的相似度矩阵 $S∈RT×JS\in R^{T\times J}$ ，其中H表示context embedding，U表示query embedding。 $S_{t,j}$ 表示context的第t个时刻和query的第j个时刻的相似度，具体如下：
$St,j=α(H:t,U:j)∈RS_{t,j}=\alpha(H_{:t},U_{:j})\in R$
其中， $α\alpha$ 是可训练标量， $H∈R2d×T,U∈R2d×JH\in R^{2d\times T}, U\in R^{2d\times J}$ ， $H_{:t}$ 表示H的第t列，即第t个时刻的向量，同样， $U_{:j}$ 表示U的第j列，即第j个时刻的向量.可选的， $α(h,u)=wST[h;u;h∘u]\alpha(h,u)=w^T_S[h;u;h\circ u]$

最低0.47元/天解锁文章