GQA: A New Dataset for Real-World Visual Reasoning and Compositional Question Answering

GQA是一个针对真实世界视觉推理和合成问题回答的新数据集,旨在解决现有VQA数据集的局限性。通过利用视觉基因组场景图,GQA生成了2200万个具有结构化表示的问题,以促进模型的深度理解和推理能力。文中提出了新的评估指标和数据平衡技术,以减少模型依赖统计偏差,并推动VQA研究向更深层次的语义理解、合理推理和增强一致性发展。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

GQA:一个用于真实世界视觉推理和合成问题回答的新数据集

我们引入了GQA,一个新的用于真实世界视觉推理和合成问题回答的数据集,试图解决先前VQA数据集的主要缺点。我们开发了一个强大而健壮的问题引擎,它利用视觉基因组场景图结构来创建2200万个不同的推理问题这些问题都带有表示其语义的功能程序。我们使用这些程序来获得对答案分布的严格控制,并提出了一种新的可调平滑技术来减轻问题偏差。伴随数据集的是一套新的衡量标准,用于评估一致性、基础和合理性等基本品质。对基线和最先进的模型进行了仔细的分析,为不同的问题类型和拓扑提供了精细的结果。而盲人LSTM只获得42.1%,强壮的VQA模型获得54.1%,人类表现最高为89.3%,为新的研究探索提供了充足的机会。我们希望GQA将为下一代模型提供一个赋能资源,增强健壮性,提高一致性,并加深对视觉和语言的语义理解。

回答一个好问题不仅仅需要聪明的猜测。吸收知识并利用它进行推理的能力是人工智能的神圣领域之一。这个目标的一个具体形式体现在虚拟问题回答(VQA)的任务中,在这个任务中,系统必须通过对所呈现的信息进行推理来回答自由形式的问题。这项任务需要丰富的能力,如对象识别、常识理解和关系提取,跨越视觉和语言领域。近年来,它在整个研究界引起了极大的兴趣,变得非常受欢迎

任务的多模态性质和多样性解决不同问题所需的技能使VQA特别具有挑战性。然而,设计一个好的测试来反映它的全部质量和复杂性可能不是那么微不足道。尽管该领域最近取得了长足的进步,但通过一系列研究已经确定,现有的基准存在严重的漏洞,使得它们在测量视觉理解能力的实际程度时非常不可靠[39,11,2

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值