原文链接:CVPR 2023 Open Access Repository
题目:Semi-DETR: Semi-Supervised Object Detection with Detection Transformers
Abstract
对基于DETR的半监督目标检测(SSOD)框架进行了分析,发现:(1)当伪真值边界盒不准确时,一对一分配策略会产生不正确的匹配,导致训练效率低下;(2)基于der的检测器在输入查询和预测输出之间缺乏确定性对应关系,这阻碍了当前SSOD方法中广泛使用的基于一致性的正则化的适用性。我们提出了Semi-DETR,第一个基于变压器的端到端半监督对象检测器,来解决这些问题。具体来说,我们提出了一种分阶段混合匹配策略,该策略结合了一对多分配和一对一分配策略,提高了第一阶段的训练效率,从而为第二阶段的训练提供了高质量的伪标签。此外,我们引入了一种跨视图查询一致性方法来学习不同视图对象查询的语义特征不变性,同时避免了寻找确定性查询对应关系的需要。在此基础上,提出了基于成本的伪标签挖掘模块,根据伪地面真值边界盒的匹配成本,动态挖掘更多伪标签盒进行一致性训练。在COCO和Pascal VOC基准数据集的所有SSOD设置上进行的大量实验表明,我们的Semi-DETR方法明显优于所有最先进的方法。
1. Introduction
半监督目标检测(SSOD)旨在通过利用大量未标记数据来提高全监督目标检测器的性能。当前最先进的SSOD方法主要基于带有许多手工制作组件的对象检测器,例如基于规则的标签赋值器[9,26,27,31]和非最大抑制(NMS)[1]后处理。我们将这种类型的对象检测器称为传统的对象检测器。最近,一种简单的基于变压器的端到端目标检测器DETR[2]受到了越来越多的关注。通常,基于DETR的框架建立在变压器[32]编码器-解码器架构之上,并在训练期间通过二部匹配强制基于集合的全局损失来生成唯一的预测。它消除了对各种手工制作组件的需求,在完全监督的目标检测中实现了最先进的性能。虽然性能是理想的,但如何设计一个可行的基于der的SSOD框架仍有待探索。目前还没有系统的方法来填补这一研究空白。
为基于DETR的检测器设计一个SSOD框架是非常重要的。具体地说,基于der的检测器采用一对一分配策略,其中bipartitemmatching算法强制每个ground-truth (GT)边界框将候选提议匹配为正,将剩余部分视为负。如果地面真相边界框是准确的,就会很顺利。然而,直接将基于der的框架与SSOD集成是有问题的,如图1 (a)所示,其中der -SSOD vanilla框架利用基于der的检测器对未标记的图像执行伪标记。在师生体系结构中,教师模型通常在未标记的图像上生成有噪声的伪边界框。当伪边界框不准确时,一对一分配策略注定会将单个不准确的建议匹配为正,而将所有其他潜在的正确建议都匹配为负,从而导致学习效率低下。相比之下,传统目标检测器采用的一对多分配策略保留了一组正提议,包含正确正提议的几率更高。一方面,一对一分配策略具有端到端无nms检测的优点,但在半监督场景下训练效率低下;另一方面,一对多分配策略获得了质量更好的候选提议集,使得检测器优化效率更高,但不可避免地导致重复预测。设计一个包含这两个优点的基于der的SSOD框架可以将性能提升到一个新的水平。

此外,当前SSOD方法中常用的基于一致性的正则化在基于der的SSOD中变得不可行。具体来说,当前的SSOD方法[3,10,13,16]利用基于一致性的正则化,通过对成对输入的输出施加一致性约束(如尺度一致性[3,10,16]、弱-强一致性[13]等),帮助目标检测器学习潜在的特征不变性。由于传统的目标检测器的输入特征是确定的,因此输入和输出之间存在一对一的对应关系,使得一致性约束便于实现。然而,在基于detr的检测器中,情况并非如此。基于der的检测器[2,15,20,40,44]使用随机初始化的可学习对象查询作为输入,并通过注意机制不断更新查询特征。随着查询特征的更新,相应的预测结果也在不断变化,这在[15]中得到了验证。换句话说,输入对象查询与其输出预测结果之间没有确定的对应关系,这阻止了一致性正则化应用于基于DETR的检测器。
根据上述分析,我们提出了一种新的基于师生体系结构的基于DETR的SSOD框架,我们称之为半detr,如图1 (b)所示。具体而言,我们提出了一个分阶段混合匹配模块,该模块分别使用一对多分配和一对一分配实施两个阶段的训练。第一阶段旨在通过一对多分配策略提高训练效率,为第二阶段的一对一分配训练提供高质量的伪标签。此外,我们还引入了跨视图查询一致性模块&