CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning
这项工作是Visual Reasoning领域的开山之作了~
李飞飞&FAIR构建了一个新的Reasoning dataset, CLEVR:
https://cs.stanford.edu/people/jcjohns/clevr/
合成的数据集,由一些简单的几何形状组成的视觉图像。数据集中的问题多涉及到复杂推理,问题类别包括:属性查询(querying attribute),属性比较(comparing attributes),存在(existence),计数(counting),整数比较(integer comparison),这些问题都是程序生成的。
包括一个main dataset,以及用于研究泛化性的CLEVR-CoGenT-A和CLEVR-CoGenT-B (A→A and A→B 两种测试方法)

feifei后续的一篇论文Inferring and Executing Programs for Visual Reasoning,还提出了CLEVR-humans,还是CLEVR的images,question-answer pairs则是人类写的,句式结构更加natural~
下面介绍下paper原文的一些内容
Introduction
现在的模型很多是直接给出一个答案,而没有中间的推理过程,这使得人们很难分析模型的缺陷,究竟是哪一块出现了问题。
大神这里也提到了CLEVR的提出动机:
CLEVR: 组合语言与视觉推理

CLEVR是一个由李飞飞及FAIR团队创建的合成数据集,用于评估视觉推理模型的复杂推理能力,包含10万张图像与百万级自动生成的问题,涉及属性查询、比较、计数等技能,旨在减少数据集偏差,提升模型的可解释性和泛化能力。
最低0.47元/天 解锁文章
5447

被折叠的 条评论
为什么被折叠?



