标题:When Pigs Fly: Contextual Reasoning in Synthetic and Natural Scenes
作者:Philipp Bomatter, Mengmi Zhang, Dimitar Karev, Spandan Madan, Claire Tseng, and Gabriel Kreiman
主要机构:ETH Zürich, Harvard Medical School, Harvard University
来源:arXiv:202104
一、摘要
首先,进行心理物理实验,为脱离情景(上下文)的识别建立一个人类基准,然后将其与最先进的计算机视觉模型进行比较,以量化两者之间的差距。最后提出一个情景感知的识别转换模型,通过多头注意融合(multi-head attention in transformer decoders)目标和上下文信息。
二、主要贡献
方法:
利用3D仿真引擎Unity生成图像,在虚拟家庭环境中操作3D对象,研究对象的情景识别影响。
提出:
-
OCD(out-of-context dataset)数据集,控制重力、对象共现(object
co-occurrences)和相对大小。 -
进行心理学实验,建立人类基准,量化人类和计算机视觉之间的差距。
-
上下文感知的对象识别体系CRTNet(Context-aware Recognition Transformer Network)。结合对象和情景信息在上下文中推理,也能推广到情景外的图像。
三、引言介绍
神经网络不仅学习对象的外观和标签之间的共现统计,还学习对象的情景和标签之间