Don’t Just Assume; Look and Answer:Overcoming Priors for Visual Question Answering阅读笔记

本文分析了当前VQA模型过度依赖训练数据中的语言先验,忽视图像信息的问题。为此,提出了VQA-CP数据集,改变训练和测试集中的答案先验分布,以促进模型学习真正依赖图像的解决方案。GVQA模型通过两步方法(LOOK和ANSWER)强化视觉概念的定位和理解,从而在先验不匹配时表现出色。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

许多研究发现,目前的视觉问题回答(VQA)模型在很大程度上是由训练数据的表面相关性驱动的,缺乏足够的图像基础。我们提出了一种新的VQA设置,即针对每种题型,训练和测试集都有不同的答案先验分布。提出了VQA v1和VQA v2数据集的新分割,称之为改变先验下的可视化问题回答(VQA-CP v1和VQA-CP v2)。
1、文章引入
先前的工作所研究的模型当面对一个困难的学习问题时,通常诉诸于锁定训练数据中的语言先验,以至于忽略图像。(比如问题为“……是什么颜色”时回答“白色”,问题为“是……吗?”时回答“是的”。)
为了解决这个问题,本文通过重新组织各个VQA数据集的训练集和验证集拆分来创建这些新的拆分,以使每种问题类型(“多少”,“什么颜色”等)的答案分布在测试分块与训练分块的设计上是不同的。需要注意的是:本文不会在训练和测试之间更改基本感知信号(图像)的分布,而只是更改训练和测试之间每种问题类型的答案分布。
在这里插入图片描述
图一:现有的VQA模型,如SAN,倾向于在训练集中依赖于很强的语言先验,例如,问题类型为(what color is the’, ‘is the person’)的先验答案为(‘white’, ‘no’)。因此,当答案(‘black’, ‘yes’)不是大多数答案时,他们的表现会明显下降。本文提出了一个新的模型(GVQA),它建立在SAN之上,明确地将视觉概念建立在图像上,因此在训练和测试之间的先验不匹配的情况下显著优于SAN。
提出一个新颖的视觉接地问答(GVQA)模型,该模型包含归纳偏见和限制,在体系结构中专门设计用于防止主要依赖于先验的训练数据来作弊。GVQA受到直觉的启发,认为VQA中的问题提供了两个关键信息:
(1)应该识别什么? 或者需要推理图像中的哪些视觉概念(例如,“盘子是什么颜色?”需要查看图像中的盘子);
(2)应该回答些什么? 或合理答案的空间是多少(例如,“什么颜色…?”问题需要用颜色名称回答)。
2、VQA-CP : Dataset Creation and Analysis

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值