许多研究发现,目前的视觉问题回答(VQA)模型在很大程度上是由训练数据的表面相关性驱动的,缺乏足够的图像基础。我们提出了一种新的VQA设置,即针对每种题型,训练和测试集都有不同的答案先验分布。提出了VQA v1和VQA v2数据集的新分割,称之为改变先验下的可视化问题回答(VQA-CP v1和VQA-CP v2)。
1、文章引入
先前的工作所研究的模型当面对一个困难的学习问题时,通常诉诸于锁定训练数据中的语言先验,以至于忽略图像。(比如问题为“……是什么颜色”时回答“白色”,问题为“是……吗?”时回答“是的”。)
为了解决这个问题,本文通过重新组织各个VQA数据集的训练集和验证集拆分来创建这些新的拆分,以使每种问题类型(“多少”,“什么颜色”等)的答案分布在测试分块与训练分块的设计上是不同的。需要注意的是:本文不会在训练和测试之间更改基本感知信号(图像)的分布,而只是更改训练和测试之间每种问题类型的答案分布。
图一:现有的VQA模型,如SAN,倾向于在训练集中依赖于很强的语言先验,例如,问题类型为(what color is the’, ‘is the person’)的先验答案为(‘white’, ‘no’)。因此,当答案(‘black’, ‘yes’)不是大多数答案时,他们的表现会明显下降。本文提出了一个新的模型(GVQA),它建立在SAN之上,明确地将视觉概念建立在图像上,因此在训练和测试之间的先验不匹配的情况下显著优于SAN。
提出一个新颖的视觉接地问答(GVQA)模型,该模型包含归纳偏见和限制,在体系结构中专门设计用于防止主要依赖于先验的训练数据来作弊。GVQA受到直觉的启发,认为VQA中的问题提供了两个关键信息:
(1)应该识别什么? 或者需要推理图像中的哪些视觉概念(例如,“盘子是什么颜色?”需要查看图像中的盘子);
(2)应该回答些什么? 或合理答案的空间是多少(例如,“什么颜色…?”问题需要用颜色名称回答)。
2、VQA-CP : Dataset Creation and Analysis