Don’t Just Assume； Look and Answer：Overcoming Priors for Visual Question Answering阅读笔记_don鈥檛 just assume; look and answer: overcoming pri-优快云博客

本文链接：https://blog.youkuaiyun.com/untitled_/article/details/106625523

本文分析了当前VQA模型过度依赖训练数据中的语言先验，忽视图像信息的问题。为此，提出了VQA-CP数据集，改变训练和测试集中的答案先验分布，以促进模型学习真正依赖图像的解决方案。GVQA模型通过两步方法（LOOK和ANSWER）强化视觉概念的定位和理解，从而在先验不匹配时表现出色。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

许多研究发现，目前的视觉问题回答(VQA)模型在很大程度上是由训练数据的表面相关性驱动的，缺乏足够的图像基础。我们提出了一种新的VQA设置，即针对每种题型，训练和测试集都有不同的答案先验分布。提出了VQA v1和VQA v2数据集的新分割，称之为改变先验下的可视化问题回答(VQA-CP v1和VQA-CP v2)。
1、文章引入
先前的工作所研究的模型当面对一个困难的学习问题时，通常诉诸于锁定训练数据中的语言先验，以至于忽略图像。（比如问题为“……是什么颜色”时回答“白色”，问题为“是……吗?”时回答“是的”。）
为了解决这个问题，本文通过重新组织各个VQA数据集的训练集和验证集拆分来创建这些新的拆分，以使每种问题类型（“多少”，“什么颜色”等）的答案分布在测试分块与训练分块的设计上是不同的。需要注意的是：本文不会在训练和测试之间更改基本感知信号（图像）的分布，而只是更改训练和测试之间每种问题类型的答案分布。
在这里插入图片描述
图一：现有的VQA模型，如SAN，倾向于在训练集中依赖于很强的语言先验，例如，问题类型为(what color is the’, ‘is the person’)的先验答案为(‘white’, ‘no’)。因此，当答案(‘black’, ‘yes’）不是大多数答案时，他们的表现会明显下降。本文提出了一个新的模型(GVQA)，它建立在SAN之上，明确地将视觉概念建立在图像上，因此在训练和测试之间的先验不匹配的情况下显著优于SAN。
提出一个新颖的视觉接地问答(GVQA)模型，该模型包含归纳偏见和限制，在体系结构中专门设计用于防止主要依赖于先验的训练数据来作弊。GVQA受到直觉的启发，认为VQA中的问题提供了两个关键信息：
（1）应该识别什么？或者需要推理图像中的哪些视觉概念（例如，“盘子是什么颜色？”需要查看图像中的盘子）；
（2）应该回答些什么？或合理答案的空间是多少（例如，“什么颜色…？”问题需要用颜色名称回答）。
2、VQA-CP : Dataset Creation and Analysis