视觉问答VQA论文近期总结

最新推荐文章于 2025-04-26 08:45:00 发布

snow5618

最新推荐文章于 2025-04-26 08:45:00 发布

阅读量1.7k

点赞数 6

CC 4.0 BY-SA版权

分类专栏：视觉问答论文笔记文章标签： python 计算机视觉

本文链接：https://blog.youkuaiyun.com/snow_maple521/article/details/111564037

视觉问答同时被 2 个专栏收录

20 篇文章

订阅专栏

论文笔记

3 篇文章

订阅专栏

本文综述了近年来在视觉问答(VQA)领域的关键技术发展，包括堆叠注意力网络(SAN)、层级共注意力(H-COA)、多模态张量融合(MUTAN)等模型。这些模型通过引入注意力机制、双线性模型以及多模态融合等方式，逐步提高了VQA任务的准确性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

声明：全是结合论文加自己简单理解，可能存在理解错误，望见谅，不足很多没写，欢迎补充。

论文笔记总结

1. 写在前面

模型的实验准确度对比如下：

	Y/N	Num	Other	All	test-std All	年份
SAN	79.3	36.6	46.1	58.7	58.9	2016
H-COA	79.7	38.7	51.7	61.8	62.1	2017
MUTAN	85.14	39.81	58.52	67.42	67.36	2017
BAN	85.42	54.04	60.52	70.04	70.35	2018
BLOCK	82.86	44.76	57.3	66.41	-	2019
MUREL	84.77	49.84	57.85	68.03	68.41	2019
Counter	83.14	51.62	58.97	68.09	68.41	2018
DFAF	86.09	53.32	60.49	70.22	70.34	2019
MLIN	87.07	53.39	60.49	71.09	71.27	2019
ReGAT	86.08	54.42	60.33	70.27	70.58	2019

2. Stacked Attention Networks for Image Question Answering

论文地址
 项目地址
在这里插入图片描述

2.1 论文提出原因

作者认为解决视觉问答的问题,只I+LSTM这种算法是不够的,如同人观察图像一样,它也是一个多步推理循循渐进的过程.由此作者提出堆叠式注意力模型,逐层去关注与问题更接近的图像区域.

论文思想:
首先利用问题q查询第一视觉注意层的图像向量v,求得第一层经过问题指导，获得图像区域的关注度

irep_1 = self.image1(image) #将图像特征进行线性变换
qrep_1 = self.question1(question).unsqueeze(dim=1)  #将问题特征线性变换并添加一个维度
ha_1 = self.tanh(irep_1 + qrep_1)
ha_1 = self.dropout(ha_1)
pi_1 = self.softmax(self.attention1(ha_1))

将问题向量q与经过问题查询后的v结合得到查询向量u
u_1 = (pi_1 * image).sum(dim=1) + question

在利用u查询第二视觉注意层的图像向量.

irep_2 = self.image2(image)
qrep_2 = self.question2(u_1).unsqueeze(dim=1)
ha_2 = self.tanh(irep_2 + qrep_2)
ha_2 = self.dropout(ha_2)
pi_2 = self.softmax(self.attention2(ha_2))
u_2 = (pi_2 * image).sum(dim=1) + u_1

再利用最后一层与问题最相关的图像区域去预测答案
w_u = self.answer_dist(self.dropout(u_2))

2.2 实验结果

在这里插入图片描述

2.3 论文优势与不足

论文优势:
论文借鉴堆叠注意力在图像字幕中的应用，将其应用到视觉问答中，从对比实验中可看出这是视觉问答任务中初次使用注意力模型，所以算是经典的视觉问答模型。
论文将人观察事物的过程引用到视觉问答任务过程，建立了堆叠式注意力网络。
用问题观察图像获取第一层的查询向量u1，再用u1作为第二层的问题向量获取第二层的查询向量u2，层数越高的u的问题与图像关注的区域更相关。
论文不足：
①由于论文年份较久远，采用图像特征提取是VGG16，问题模型采用的是LSTM。且图像模型，问题模型，注意力模型是分别进行训练，所以这非常费时。
②论文最后预测答案，采用的直接采用的是一个nn.Linear线性分类器变换成1000维的类别数目，后来论文可知，答案有3000多种，显然1000是不够的，造成这个不足也可能这里的代码不是作者本人写的原因。

3. Hierarchical Co-Attention for Visual Question Answering[2017]

论文地址
 项目地址

在这里插入图片描述

3.1 论文提出原因

注意力虽然被一些研究者引入到VQA中，但是大多只关注图像区域的注意权重，没有考虑到问题。因此作者提出一个共同注意力同时关注图像和问题，采取的策略有：平行共同注意和交替的共同注意。

3.2 实验结果

在这里插入图片描述

3.3 论文优势与不足

论文的优势：论文首次提出共同关注图像和问题的注意力，同时论文在问题上还分了三个层次：词语，短语，句子。在每个级别上都应用共同注意。
论文不足：虽然作者同时关注了图像和问题的注意力，但是为了避免计算的复杂度缺少两模态间的交互。

4. MUTAN:Multimodal Tucker Fusion For Visual Question Answering

论文地址
 项目地址
在这里插入图片描述

4.1 论文提出原因

作者发现虽然双线性模型方法考虑了多模态的交互，但是面临了维度爆炸的问题，因此作者引入了新的方法：MUTAN（多模态张量的Tucker分解）。同时作者还设计了一个低秩矩阵分解来约束交互等级。

4.2 论文实验结果

在这里插入图片描述

4.3 论文优势与不足

优势：论文提出的是基于Tucker分解的多模态融合技术，解决了多模态交互间W维度爆炸的问题。
同时作者增加了核心张量Tc，并采用结构化稀疏性约束进一步来控制模型的参数数量。

5. Bilinear Attention Networks [2018]

论文地址
 项目地址
在这里插入图片描述

5.1 论文提出原因

虽然注意力能够有效的选择图像中与问题相关的区域，但对于多模态如果为每个模态的输入通道都提供注意力，这个计算成本会非常高，co-attention虽然想到了为两个模态分别单独设置注意，但是忽略了两个模态之间的交互。基于此，作者提出了BAN（双线性注意网络模型）。当然作者也不是凭空想象出的双线性模型，而是基于低阶双线性池化技术上，提出的BAN。

5.2 论文实验结果

在这里插入图片描述

5.3 论文优势与不足

优势：
论文是首次在共同注意中使用了双线性模型，考虑到了模型间的交互。
关于多模态交互的复杂度上，论文使用low-rank低阶双线性进行高维度分解。
除此之外论文还利用了别人的剩余连接网络创造了自己的多模态剩余网络MRN。有效地利用多重双线性注意图

6. MUREL: Multimodal Relational Reasoning for Visual Question Answering【2019】

论文地址
 项目地址
在这里插入图片描述

6.1 论文提出原因

作者认为虽然注意力关注了与问题相关的图像区域，但是缺少内部间丰富的关系推理，仅是将视觉推理限制为对于回答问题相关区域进行软选择。这对这种像VQA一样的多模态任务来说是不够的，因此作者引入了Murel一种基于端到端学习的多模态关系网络对真实图像的推理。为了能够充分表达问题区域和图像区域之间的细粒度交互，引入了murel cell，一种原推理原语子能够表示问题区域和图像区域之间的丰富交互。还采用了pairwise combinations建模区域关系。再将murel cell 整合到Murel network中进行迭代，此处灵感来自于综合推理的clevr数据集，使其逐渐改进问题与图像的交互，得到比注意力更精细方案。

6.2 论文实验结果

在这里插入图片描述

6.3 论文优势与不足

优势：本文通过图像区域之间的视觉嵌入和空间坐标之间的相互作用来表示成对的图像区域，从而在表示中引入空间和语义上下文的概念，利用更丰富的双线性融合模型和明确地包含区域之间的关系来改善图像区域与问题之间的相互作用。进一步提高VQA任务的准确度。

7. BLOCK: Bilinear Superdiagonal Fusion for Visual Question Answering and Visual Relationship Detection[2019]

论文地址
 项目地址
在这里插入图片描述

7.1 论文提出原因

本文作者和MUTAN作者是一个，作者认为双线性模型的参数个数在输入维度上是二次的，由张量T定义，但是当输入维度增长时，T的参数的数量就会越来越大，所以因为双线性模型带来了参数爆炸问题，为了减少参数，MUTAN采用的是Tucker分解技术，而BLOCK利用了block-item rank分解的块超对角融合。

7.2 论文实验结果

在这里插入图片描述

7.3 论文优势与不足

优势：BLOCK能够对多模态能够建模非常丰富的交互。降低了多模态融合中特征权重T的参数数目。

8. Multi-modality Latent Interaction Network for Visual Question Answering【2019】

论文地址
论文项目：无

在这里插入图片描述

8.1 论文提出原因

目前的研究大多模拟单个单词或者单个区域之间的关系，作者认为这样不足以来正确回答问题。因为回答一个问题要总结下问题的意思和图像的大概内容，所以基于此，作者就想能不能建立一个模拟潜在图像概要和语言概要的跨模态关系。因此作者创造了一个MLI（多模态潜在交互）模型，而且该模块还可以类似Hi-coattention堆叠若干阶段。

8.2 论文实验结果

在这里插入图片描述

8.3 论文优势与不足

优势：
由于模型首先将问题和图像特征编码为少量的潜在视觉概要向量和问题概要向量，每个概要向量可以表示为视觉或单词特征上的加权池，所以模型从全局的角度总结了每种模态的某些方面。因此编码的特征也更丰富。
与DFAF相比，作者提出的多模态潜表示能更好地捕获多模态交互。

9. Learning to Count Objects in Natural Images for Visual Question Answering

总模型
在这里插入图片描述

分步：图1：对象内部边缘，图2：对象间边缘
A = a*a^T, D=1-IOU(bi,bj)
在这里插入图片描述

9.1 论文提出原因

虽然现有的研究技术能够对图像中的对象进行计数，但是很难解决数据集偏差之外的任何计数问题，原因可能是软注意机制，而且VQA任务的计数还不能影响其他非计数问题的性能。然而任何场景下的图像中的对象都可能出现重复计算的问题。基于以上原因作者提出了可分解的神经网络组件。

9.2 论文实验结果

在这里插入图片描述

9.3 论文优势与不足

优势：
作者提出的克分解的神经网络组件不仅可以和注意力机制一起使用避免了软注意机制的基本限制，同时产生了避免重复计算对象的强大计数功能。
在避免重复计数方式中消除重复边时针对性的分别采用对象内部边缘和对象间边缘方式。
在比较两个边界框时，采用了IOU交并比。（IOU是目标检测中预测对象的边界框与真实框的比值，理想状态下为1。），此处的IOU反映的是两个检测对象的框的重叠程度。这样可以有效消除重复对象。
不足：
作者仅是在关于对象计数的方向上让模型的准确度提高了一点，但是没有考虑非计数任务的准确度。

10. Dynamic Fusion with Intra- and Inter-modality Attention Flow for Visual Question Answering

论文地址
项目地址：
模型架构
在这里插入图片描述

模态内注意力流模块说明
在这里插入图片描述

10.1 论文大概

本文作者发现前人研究只关注模态间关系（MUTAN，BAN等一个模态受其他模态的影响的注意力关注度），或者只关系模态内关系（在自然语言处理的Bert），但是没有模型将它俩同时考虑，作者认为模态间的关系应该和模态内的关系有一定的互补关系，因此提出了同时考虑模态间和模态内的DFAF模型。

10.2 论文实验结果

在这里插入图片描述

10.3 优势

作者提出的DFAF整合了交叉模态的自我注意和交叉模态的协同注意，同时考虑了模态间和模态内的注意力，在模态内，图像和问题求其自我注意力权值并且合并权重信息，在模态间采用协同注意力机制生成多模态的协同注意力矩阵；从而使模型的准确度得到了提高。

11. Relation-Aware Graph Attention Network for Visual Question Answering

论文地址
 项目地址
模型
在这里插入图片描述

11.1 论文大概

作者认为虽然前人的研究也考虑到了关系，但是在图像和自然语言之间仍然存在着显著的语义差距，因为模型不仅需要识别物体还要考虑物体相对于其他物体的位置，基于此作者分别考虑了显性关系即语义关系和空间关系和隐式关系。为了能够更好的反映对象之间的关系，作者引入了一个图注意网络，将隐式关系编码成完全连接图，然后如果特征存在语义或者空间位置信息时，再分别基于隐式关系的完全图进行修剪来建立语义图和空间图。