论文链接甩出来:点击打开链接
堆叠潜在注意力模型:个人感觉这是一篇传统Attention 和残差网络的拼接。。。
一. Standard Attention Mechanism


Wv和Wh是对齐操作,将vi和h的特征对应上,再通过Wu计算得分。经过两个卷积,进行特征信息压缩,红色S就是softmax
×是加权求和操作,得到Content vector作为Attention Model 的输出。
二.Stacked Attention Model



s代表空间推理能力,也就是包含空间位置信息。作者提出上述结构的三个缺点。1)机械的将先前的关注内容传到下一部分,使得潜在的位置信息s没能传到下一阶段,这是信息瓶颈。2)第一次就关注了错误的内容,之后只能是越来越偏离目标,严重影响性能。3)所有的激活函数和softmax在同一条路会造成梯度消失。
三.Stacked Latent Attention Model




可见,每个模块都引入上一阶段的结果z(t-1)作为SLA的输入,那么可以初始化z(0)作为第一个模块的输入。令z(0)为输入图像v与位置偏置bpos的级联。由于作者是做视觉问答的,机器视觉与自然语言处理的结合。我就是个做人体姿态估计的,所以本文的方法不适合我,那实验阶段就用高斯函数随机初始化bpos?Wu参见传统注意力机制。
最后的双流叠加注意力网络类似。
-----------------------------------------------------------------------------------------------------------------
个人理解,欢迎批评指正。