paper解读:Bi-Directional Attention Flow For Machine Comprehension

本文介绍了一种基于双向注意力机制的阅读理解模型,该模型在ICLR2017发表,已被广泛引用。通过结合query和context的多级特征,模型能够更准确地理解和定位答案。论文详细讲解了模型的六大部分,包括字符嵌入、词嵌入、上下文嵌入、注意力流、建模和输出层。双向注意力流层通过计算query和context之间的相似度矩阵,实现query到context和context到query的注意力,从而捕捉关键信息。

基于双向注意力的阅读理解(ICLR2017,引用800多,入门阅读理解可以看这篇)
paper: https://arxiv.org/abs/1611.01603
code: https://github.com/allenai/bi-att-flow

模型框架

模型主要框架如下图所示:
在这里插入图片描述

包括六个部分:
Character Embedding Layer:使用character-level CNNs将词转换成向量;
Word Embedding Layer:使用预训练的word embedding模型将词转换成向量,如glove等;
Contextual Embedding Layer:利用周围单词的上下文提示来完善单词的嵌入,如Bi-LSTM。同时应用于query和context;
Attention Flow Layer:将query向量和context向量耦合,包括query2context attention和context2query attention;
Modeling Layer:使用RNN模型学习上下文表示;
Output Layer:得到query的答案。
值得注意的是,前三步在不同粒度下计算query和context的特征,这有点像计算机视觉领域的CNN中的多阶段特征计算的过程。

双向注意力流

下面具体讲一下Attention Flow Layer.
在这一步中,作者计算两个方向的attention:从context到query以及query到context。这两个方向的attention都基于相同的相似度矩阵S∈RT×JS\in R^{T\times J}SRT×J,其中H表示context embedding,U表示query embedding。St,jS_{t,j}St,j表示context的第t个时刻和query的第j个时刻的相似度,具体如下:
St,j=α(H:t,U:j)∈RS_{t,j}=\alpha(H_{:t},U_{:j})\in RSt,j=α(H:t,U:j)R
其中,α\alphaα是可训练标量,H∈R2d×T,U∈R2d×JH\in R^{2d\times T}, U\in R^{2d\times J}HR2d×T,UR2d×JH:tH_{:t}H:t表示H的第t列,即第t个时刻的向量,同样,U:jU_{:j}U:j表示U的第j列,即第j个时刻的向量.可选的,α(h,u)=wST[h;u;h∘u]\alpha(h,u)=w^T_S[h;u;h\circ u]α(h,u)=wST[h;u;h

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值