当猪在天上飞:自然与合成场景中的情景推理(Contextual Reasoning)

本文提出了一种名为CRTNet的情境感知识别转换模型,用于在合成和自然场景中进行上下文推理。通过使用3D仿真引擎Unity生成图像,研究人员创建了OCD数据集,以研究对象在不同环境下的识别。CRTNet结合了对象和上下文信息,提高了识别的准确性。实验表明,与人类基准相比,该模型在处理异常上下文的识别任务时表现出色。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

标题:When Pigs Fly: Contextual Reasoning in Synthetic and Natural Scenes
作者:Philipp Bomatter, Mengmi Zhang, Dimitar Karev, Spandan Madan, Claire Tseng, and Gabriel Kreiman
主要机构:ETH Zürich, Harvard Medical School, Harvard University
来源:arXiv:202104

一、摘要

首先,进行心理物理实验,为脱离情景(上下文)的识别建立一个人类基准,然后将其与最先进的计算机视觉模型进行比较,以量化两者之间的差距。最后提出一个情景感知的识别转换模型,通过多头注意融合(multi-head attention in transformer decoders)目标和上下文信息。

二、主要贡献

方法:

利用3D仿真引擎Unity生成图像,在虚拟家庭环境中操作3D对象,研究对象的情景识别影响。

提出:

  1. OCD(out-of-context dataset)数据集,控制重力、对象共现(object
    co-occurrences)和相对大小。

  2. 进行心理学实验,建立人类基准,量化人类和计算机视觉之间的差距。

  3. 上下文感知的对象识别体系CRTNet(Context-aware Recognition Transformer Network)。结合对象和情景信息在上下文中推理,也能推广到情景外的图像。

三、引言介绍

神经网络不仅学习对象的外观和标签之间的共现统计,还学习对象的情景和标签之间

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值