Detecting everything in the open world: Towards universal object detection

Abstract

我们提出了UniDetector,一个通用的对象检测器,它有能力在开放世界中识别巨大的类别。UniDetector通用性的关键点是:

1)通过图像和文本空间的对齐,利用多源图像和异构标签空间进行训练,保证了足够的信息用于通用表示。

2)由于视觉和语言两种形态的丰富信息,它很容易泛化到开放世界,同时保持了可见和不可见类别之间的平衡。

3)通过我们提出的解耦训练方式和概率校准,进一步提升了对新类别的泛化能力。

这些贡献使UniDetector能够检测超过7k个类别,这是迄今为止最大的可测量类别大小,只有大约500个类参与培训。我们的UniDetector在大型词汇数据集上表现出强大的零概率泛化能力——在没有看到任何相应图像的情况下,它比传统的监督基线平均高出4%以上。在13个具有各种场景的公共检测数据集上,UniDetector仅使用3%的训练数据就达到了最先进的性能。

网络架构图

图2。UniDetector概述。它包括三个步骤。通过图像-文本预训练参数,UniDetector可以使用具有多个标签空间的不同来源的图像进行训练。这样,它可以直接在开放世界中进行检测进行推理。“V”表示处理视觉信息的模块࿰

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值