自监督论文阅读笔记 DetCo: Unsupervised Contrastive Learning for Object Detection

DetCo提出了一种创新的自监督目标检测策略,通过多级监督和全局-局部对比学习,实现图像分类与实例检测的双重优化。在保持高精度的ImageNet分类的同时,显著提升COCO检测性能,如COCO检测上比MoCov2高出0.9AP。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文提出了一种简单而有效的目标检测自监督方法 DetCo。无监督的预训练方法最近被设计用于目标检测,但它们通常在图像分类方面存在缺陷,或相反。与它们不同,DetCo在下游实例级密集预测任务上迁移性能良好,同时保持具有竞争力的图像级分类精度。

        它的优势来自于 (1)对中间表征的多级监督,(2)全局图像和局部patch之间的对比学习。这两种设计有利于在特征金字塔的每一层进行有区别的、一致的全局和局部表示,同时提高了检测和分类的效率。

例如,在ImageNet分类中,DetCo的top-1准确率比InsLoc和DenseCL高出6.9%和5.0%,而InsLoc和DenseCL是当代两款用于目标检测的作品。在COCO检测上,DetCo比带Mask R-CNN C4的SwAV好6.9 AP。值得注意的是,DetCo很大程度上提高了稀疏R-CNN,一个最近的强检测器,从45.0 AP到46.5 AP (+1.5 AP),在COCO上建立了一个新的SOTA。

        引言:

        视觉表示的自监督学习是计算机视觉中的一个基本问题,它可以促进许多下游任务,如图像分类、目标检测和语义分割[23,35,43]。它旨在为下游任务提供大规模未标记数据的预训练模型。以往的方法侧重于 设计不同的前置任务。其中,对比学习[32]是最有前景的方向之一,它将一幅图像转换为多个视图,最小化同一图像的视图之间的距离,最大化在特征图上 不同图像的视图之间的距离

        图1:DetCo在分类和检测两方面都实现了最佳的性能权衡。例如,在COCO检测上,DetCo的性能比其强基线MoCo v2[5]高出0.9 AP。此外,在ImageNet分类上,DetCo比DenseCL[39]、InsLoc[41]、PatchReID[8]等最近的工作有显著的提高,同时在目标检测上也有优势。注意,这三种方法是同期的工作,专门为目标检测设计的(用绿色标记)。

        在过去的两年中,一些基于对比学习和在线聚类的方法,如MoCo v1/v2 [19, 5], BYOL[18]和SwAV[3],在弥补无监督和全监督图像分类方法之间的性能差距方面取得了很大的进展。然而,它们对目标检测的迁移能力并不理想。在我们工作的同时,最近DenseCL [39], InsLoc[41]和PatchReID[8]也采用了对比学习来设计 检测友好的(detection-friendly) 前置任务。尽管如此,这些方法只能很好地迁移目标检测,而牺牲了图像分类的性能,如图1和表1所示。因此,如何设计一种能够兼顾实例级检测和图像分类的前置任务是一项很有挑战性的工作。

        我们假设图像级分类和实例级检测之间没有不可逾越的鸿沟。直观上,图像分类 从单个高级特征映射中识别全局实例,而目标检测 从多层特征金字塔中识别局部实例

        从这个角度来看,我们

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值