摘要
在VQA任务中,设计一个有效的Co-attention模块来将问题中的关键词和图像中的关键区域联系起来是解决问题的核心。此前,大多数成功的联合注意力学习尝试都是通过使用浅层模型来实现的,深度联合注意模型与浅层模型相比几乎没有改善。(浅层模型,模态之间的交互不够充分)本文提出Modular Co-Attention Network (MCAN),该网络由一系列Modular Co-Attention (MCA) layers级联组成。每个MCA结构包含图像模态、文本模态的自注意力(self-attention,SA)以及来自文本的并作用于图像模态的引导注意力(question-guided-attention of images,GA)这两种基础的attention单元。实验结果表明,MCAN的性能明显优于先前的先进技术。
引言
作者认为这些deep co-attention模型的瓶颈在于缺乏在各模态内同时建模较为密集的自注意力(模态内的self-attention力度不够)。受Transformer系列模型结构的启发,使用两个通用的attention单元(SA,建模模态内交互;GA,建模模态间交互,这里主要是word-to-region),通过SA和GA的组合,来构成模块化的共注意力结构。
方法
两种基本的attention单元SA与GA

两种attention的基础单元均具备multi-head attention来处理不同的输入。SA接收单模态X作为输入,输出针对X的重建特征Z;GA需要以双模态X、Y作输入,输出由Y引导的X的重建特征Z。
通过SA和GA进行组合可以得到的Modular Co-Attention 结构举例

由图可知,图像特征记为X,文本特征记为Y
(a)ID(Y)-GA(X,Y)作为本文的baseline来使用。文本(问题)特征不经过处理直接作为输出,仅利用GA建模了文本对图像的交互。
(b)SA(Y)-GA(X,Y)相对于(a)新增SA(Y)对文本模态自交互进行建模(word-to-word)
(c)SA(Y)-SGA(X,Y)相较于(b)新增SA(X)对图像区域间的交互建模(region-to-region)
这几种组合有着递进的层次关系,依据此,我们还能拓展出如GA(X,Y)-GA(Y,X)和SGA(X,Y)-SGA(Y,X)这种对称的结构。作者在论文中使用如( c )所示的结构构建MCA
整体网络结构

确定好基本的MCA结构后,通过多个MCA级联的方式便可以搭建出目标Co-Attention网络了。作者讲到,级联的方式可以是Stacking或者Encoder-Decoder形式,如下图(均基于SA(Y)-SGA(X,Y)的MCA结构)

作者在VQA-v2数据集上进行了实验,统计了在VQA中多任务实验结果(Y/N,Num,Other分别代表不同类型的任务,All是这些任务的平均结果),MCA使用Encoder-Decoder结构(即MCAed−LMCA_{ed}-LMCAed−L,LLL代表级联的层数)

消融研究
使用不同的MCA单元

Co-attenion网络不同的级联方式
Stacking vs. Encoder-Decoder

问题的Representation的不同

不同问题表示的MCANed-6模型。:Randft意味着单词embedding被随机初始化,然后进行微调。PE表示单词位置编码,GloVept+ft和GloVept意味着单词embeddings是预先用GloVe进行训练的,而GloVept+ft是另外进行微调的。
补充
attention maps的可视化,对比Encoder-Decoder和Stacking结构

可以看出利用Encoder-Decoder结构,在GA(X,Y)-6时,与答案相关的词如sheep获得的注意较为集中
与其他VQA方法的对比

结论
本文针对VQA任务提出了一种新的deep Modular Co-Attention网络(MCAN)。MCAN由模块化共同注意(MCA)层进行级联组成,每个层由自注意单元SA和引导注意单元GA组成,以协同地建模模态内和模态间的相互作用。通过使用编码器-解码器策略对MCA层进行深度叠加,我们得到了一个深度MCAN模型,该模型达到了VQA新的最先进的性能。
本文提出了Modular Co-Attention Network (MCAN)用于视觉问答任务,通过级联的MCA层,结合自注意力和引导注意力单元,增强了模态内和模态间的交互,显著提升了性能。
648

被折叠的 条评论
为什么被折叠?



