目录
- Abstract
- Introduction
- Related Work
- ALSA for VQA
- Experiments
- Datasets and Baselines
- Experimental Settings and Evaluation Methods
- Results and Analysis
- Ablation Study
- Statistical Significance Analysis
- Effect of Adversarial Learning
- Analysis of Supervised Attention Loss
- Parameter Sensitivity
- Visualization of The Attention Models
- Qualitative Analysis of Adversarial Learning
- Model Generalization
- Conclusion
Abstract
现有的VQA方法:
(1)从图像中的自由区域或检测框中学习注意分布,这在分别回答前景对象和背景形式问题时很困难;
(2)忽略人类注意的先验知识,采用非引导策略学习注意分布。
为了充分发挥注意的优势,学习到的注意分布应该更多地集中在与问题相关的图像区域,如人类对前景对象和背景形式的注意。
本文提出的ALSAs设计了两个有监督的注意模块来利用先验知识学习注意分布:
(1)基于自由形式的;
(2)基于检测的。
为了有效地从不同视角(即自由区域和检测框)学习问题与图像之间的相关性,在两个有监督注意模块之间实现了一种对抗学习机制作为相互影响。对抗学习将两个注意模块相互强化,使学习到的多视角特征更有效地进行答案推理。
Introduction
VQA应用领域:human-machine interaction;medical assistance;automatic customer service
现有的VQA方法存在的两个挑战:
(1)VQA中大多数视觉注意机制可以分为:基于自由形式的方法和基于检测的方法。在基于自由形式的方法中,图像被均匀地分成许多区域,注意也被分配在这些区域。尽管可以自由地将注意映射到任何大小的区域,但可能会集中在部分对象或无关的上下文。如图,基于自由形式的注意仅聚焦于前景狗的一部分,然后生成了错误答案“cat”。这表明基于自由形式的注意难以回答关于前景对象的问题。
基于检测的方法目的是在预先指定的检测框上学习注意分布。但它不能有效地回答关于背景形式的问题。如图,图像中可能不存在关于背景天空的精确方框,这会导致答案错误。
显然,对于前景对象和背景形式问题,学习更有效的注意分布是一个重大挑战。
(2)注意分布是图像中每个区域或检测框的标准化重要性。目前大多数VQA方法只考虑问题和图像之间的相关性,使用无监督策略学习注意分布。当问题词和图像区域或方框间的相关性明确时,这些方法取得了一定的成功。然而,当相关性模糊时,则很难学习注意分布。如图,隐式生成的注意图聚焦于与问题对象无关的图像区域,然后得到了错误的答案。而人类注意集中在与正确答案相关的其他区域。因此,学习有效的像人类注意的注意分布成为了另一个挑战。
与之前的VQA方法不同,本文从两个方面来解决这些问题。
首先,为了有效地回答前景对象和背景形式问题,直觉是学习可以同时捕捉这两种视角的图像特征。如上所述,基于检测和自由形式的注意模块分别可以有效地从这两个角度学习特征。因此,通过加强两个注意模块互相学习互补知识,可以获得更强大的注意模块来捕捉特征,从而有效地反映关于前景对象和背景形式的问题。最近提出的adversarially learned inference models在学习互相关推理方面取得了很大的成功,它依赖对抗网络来增强生成器,以保持数据中潜在的交叉视角语义结构。因此,本文认为在对抗网络中将两个注意模块视为两个生成器有助于有效地整合它们来进行答案推理。其次,为了推断一个给定问题-图像对的答案,学习到的注意分布应该尽可能与人类的注意图一致。也就是说,人类注意可以看作是先验知识,以学习有效的注意分布。通过在图像上使用人类注释的注意图,学习到的注意分布可以更有效地反映答案。
本文提出的模型ALSAs,将两种类型的注意模块与对抗网络结合用于VQA。首先,将基于自由形式和检测的注意模块在一个带注释注意的数据集上预训练来学习人类注意的先验知识。其次,为了从不同的角度有效地学习图像和问题之间的相关性,在基于自由形式和检测的注意模块之间部署对抗网络,使它们相互加强以学习互补的知识。具体地,设计了一个鉴别器来区分从这两种注意模块中学习到的多视角特征。这两个注意模块充当两个生成器来试图混淆鉴别器多视角特征是从另一个模块生成的。这样,两个注意模块被加强以从不同视角学习更有效的多视角特征。主要贡献总结如下:
(1)与现有的基于注意的方法不同,使用人类注释注意图的先验知识来学习两个有监督注意模块来更有效地学习注意分布;
(2)在从不同视角学习的两个有监督注意模块间构造对抗网络来增强它们从而有效地回答关于前景对象和背景形式的问题;
(3)提出了新的VQA模型ALSA,并且在不同注意模型上采用对抗学习的融合方案可以被灵活地扩展到更多的VQA模型和其他场景中以获得更好的性能。
Related Work
VQA
介绍了基于自由形式和检测的VQA方法;VQA的扩展方法:多模融合方法、外部知识库等。与之前的方法不同的是,本文侧重于利用人类注意的先验知识和学习来自不同视角的注意分布以捕获更有效的问题-图像对中的多视角相关性。
Adversarial Learning
对抗学习的核心是特征生成器和判别分类器之间的交互作用,以极大极小博弈的形式进行。一方面,特征生成器努力生成新的能够混淆判别分类器的特征。另一方面,判别分类器试图正确区分特征生成器生成的特征并以这种方式指导特征生成器的连续学习。本文的方法侧重于捕捉不同注意模块之间的互补性,利用对抗学习来增强模型的学习能力。
ALSA for VQA
Problem Statement
图像:V = {V1, V2, …, Vn}
问题:Q = {Q1, Q2, …, Qn},n是样本数。
答案:A = {A1, A2, …, At},t是实验数据集中答案类的数目。
如图是ALSA的框架。
首先设计了两个有监督注意模块(基于自由形式和基于检测)并在带注意注释的数据集VQA-HAT(human attention)上使用有监督学习方法预训练。然后用学到的权重初始化两个注意模块来从不同的视角捕捉问题和答案之间的相关性,以学习有效的注意分布。再使用对抗网络将两个注意模块相互加强以产生更有效的多视角特征。最后,将学到的多视角特征输入到答案分类器中预测答案。
Supervised Attention Models
有监督注意模型的结构如图。
(1)Free Form-based Attention
图像特征:ResNet
问题特征:词嵌入+GRU(last cell的输出作为问题表示)
融合方式:elementwise multiplication
注意图:卷积+softmax。
(2)Detection-Baaed Attention
图像特征:Faster-RCNN
(3)Supervised Attention Model
VQA-HAT:问题、图像、人类注释注意图三元组。
和注意模块一样使用ResNet和Faster-RCNN提取人类注释注意向量。特别地,在基于检测的注意模块中每个检测框的人类注释注意分数是该框覆盖的人类注释区域的平均分数。由于有监督模型产生的注意和有监督人类注释注意都被表示为向量,因此可以使用有监督学习策略将人类注释注意向量转换为模型生成的注意向量。这样,就可以将人类注意的先验知识编码到两类注意模块中,学习更有效的注意分布。
目标函数:均方误差(MSE)
Adversarial Attention Learning
首先,在最后一层用softmax激活的MLPs被用于构造分类器,作为GAN的鉴别器。鉴别器试图区分分别由基于自由形式和检测的注意模块生成的来自不同视角的特征。同时,两个注意模块作为两个特征生成器。它们都分别试图混淆鉴别器特征是从另一个模块学习到的。
Optimization for Answer Prediction
两种视角的特征通过elementwise multiplication融合来推理答案。
损失函数:交叉熵损失
ALSA可以通过交替训练生成器和鉴别器使用BP来进行优化。
Experiments
Datasets and Baselines
数据集:VQA v1.0;VQA v2.0;COCO-QA
比较模型:HieCoAtt;MLB;Dual-MFA;VKMN;ODA;CRA-Net
Experimental Settings and Evaluation Methods
词嵌入方法:300-D GloVe
Results and Analysis
在VQA v2.0上低于BAN和MCAN,原因是BAN和MCAN都使用深度注意网络,而ALSA使用浅层注意模块。但ALSA中设计的对抗学习和有监督注意网络可以在任何类别的注意模型上建立,以获得更好的性能。
Ablation Study
Sup means supervised
该表证明了有监督注意模型和对抗学习网络的有效性。
Statistical Significance Analysis
Effect of Adversarial Learning
Analysis of Supervised Attention Loss
Parameter Sensitivity
Visualization of The Attention Models
Qualitative Analysis of Adversarial Learning
Model Generalization
Conclusion
本文来自 2020 IEEE TRANSACTIONS ON CYBERNETICS