DETRs with Collaborative Hybrid Assignments Training——基于协作混合分配训练的DETR

最新推荐文章于 2025-03-17 10:12:02 发布

原创最新推荐文章于 2025-03-17 10:12:02 发布 · 754 阅读

20 ·

CC 4.0 BY-SA版权

文章标签：

#DETRs #Collaborative #Hybrid #Assignments #training #基于协作混合分配训练的DETR #协作混合分配训练

这里是自己的论文阅读记录，感兴趣的话可以参考一下，如果需要阅读原文的话可以看这里，如下所示：

官方项目地址在这里。

摘要：

本文提出了一种新的协作混合分配训练方案（Co-DETR），旨在通过多样化的标签分配方式，提升基于DETR的检测器的效率和效果。传统的DETR通过一对一的集合匹配进行训练，导致编码器输出的监督信号稀疏，从而影响了编码器的特征学习和解码器的注意力学习。为了解决这一问题，我们引入了多个并行辅助头，这些辅助头通过一对多的标签分配（如ATSS和Faster RCNN）进行监督训练，从而增强编码器的学习能力。此外，我们从这些辅助头中提取正样本的坐标，生成额外的正查询，以提高解码器中正样本的训练效率。在推理阶段，这些辅助头被丢弃，因此我们的方法不会引入额外的参数和计算成本，且无需手工设计的非极大值抑制（NMS）。我们在多个DETR变体（包括DAB-DETR、Deformable-DETR和DINO-Deformable-DETR）上进行了广泛的实验，验证了该方法的有效性。使用Swin-L骨干网络的DINO-Deformable-DETR在COCO验证集上的AP从58.5%提升到了59.5%。结合ViT-L骨干网络，我们在COCO测试集上达到了66.0%的AP，在LVIS验证集上达到了67.9%的AP，超越了现有方法，且模型规模更小。

1. 引言

目标检测是计算机视觉中的一项基础任务，要求我们定位物体并分类其类别。经典的R-CNN系列及其变体（如ATSS、RetinaNet、FCOS和PAA）通过一对多的标签分配取得了显著进展。然而，这些检测器严重依赖于手工设计的组件，如非极大值抑制（NMS）或锚点生成。为了构建更灵活的端到端检测器，DETR（Detection Transformer）被提出，它将目标检测视为一个集合预测问题，并基于Transformer编码器-解码器架构引入了一对一的集合匹配方案。尽管DETR具有灵活性，但其性能仍不及传统的一对多标签分配检测器。

本文的目标是在保持DETR端到端优势的同时，使其性能超越传统检测器。我们通过引入协作混合分配训练方案（Co-DETR），解决了DETR中正查询过少的问题，从而提升了编码器和解码器的训练效率。

2. 相关工作

一对多标签分配

在目标检测中，一对多标签分配允许每个真实框在训练阶段被分配给多个候选框作为正样本。经典的基于锚点的检测器（如Faster RCNN和RetinaNet）通过预定义的IoU阈值和锚点与标注框的匹配IoU来指导样本选择。无锚点的FCOS则利用中心先验，将每个边界框中心附近的空间位置分配为正样本。

一对一集合匹配

DETR通过匈牙利匹配进行一对一的集合匹配，每个真实框仅分配给一个正样本。尽管这种方法避免了手工设计的组件，但其训练效率较低，收敛速度较慢。

3. 方法

3.1 概述

遵循标准的DETR流程，输入图像首先通过骨干网络和编码器生成潜在特征。随后，多个预定义的对象查询通过解码器中的交叉注意力机制与这些特征进行交互。我们引入了Co-DETR，通过协作混合分配训练方案和自定义正查询生成，提升编码器的特征学习和解码器的注意力学习。接下来，我们将详细描述这些模块，并解释它们为何有效。

3.2 协作混合分配训练

注意，负样本的回归损失被忽略。K 个辅助头的优化目标可以表示为：

3.3 自定义正查询生成

在一对一集合匹配范式中，每个真实框仅分配给一个特定的查询作为监督目标。正查询过少会导致Transformer解码器中的交叉注意力学习效率低下。为了缓解这一问题，我们根据每个辅助头中的标签分配

3.4 为什么Co-DETR有效

Co-DETR显著提升了基于DETR的检测器性能。接下来，我们将从定性和定量两个方面探讨其有效性。我们基于Deformable-DETR和ResNet-50骨干网络，使用36轮训练设置进行了详细分析。

丰富编码器的监督信号：直观上，正查询过少会导致监督信号稀疏，因为每个真实框仅通过回归损失监督一个查询。一对多标签分配方式中的正样本接收更多的定位监督，有助于增强潜在特征的学习。为了进一步探讨稀疏监督如何阻碍模型训练，我们详细研究了编码器生成的潜在特征。我们引入了IoF-IoB曲线来量化编码器输出的判别性得分。具体来说，给定编码器的潜在特征 F，我们计算IoF（前景交并比）和IoB（背景交并比）。

类似地，我们计算背景区域的交并比，并在图2中绘制了IoF和IoB曲线。显然，ATSS和Co-Deformable-DETR在相同的IoB值下获得了更高的IoF值，这表明编码器表示受益于一对多标签分配。

通过减少匈牙利匹配的不稳定性来改进交叉注意力学习：匈牙利匹配是一对一集合匹配的核心机制。交叉注意力是帮助正查询编码丰富物体信息的重要操作，它需要充分的训练才能实现这一目标。我们观察到，匈牙利匹配引入了不可控的不稳定性，因为在训练过程中，同一图像中分配给特定正查询的真实框会不断变化。我们根据[18]的方法，在图5中展示了不稳定性对比，发现我们的方法有助于实现更稳定的匹配过程。此外，为了量化交叉注意力的优化效果，我们还计算了注意力得分的IoF-IoB曲线。与特征判别性得分的计算类似，我们为注意力得分设置不同的阈值以获得多个IoF-IoB对。Deformable-DETR、Group-DETR和Co-Deformable-DETR之间的对比可以在图2中查看。我们发现，具有更多正查询的DETR的IoF-IoB曲线通常高于Deformable-DETR，这与我们的动机一致。

3.5 与其他方法的比较

与其他方法的区别：Group-DETR、H-DETR和SQR通过一对一匹配与重复组和重复真实框实现一对多分配。Co-DETR显式地将多个空间坐标分配为每个真实框的正样本。因此，这些密集的监督信号直接应用于潜在特征图，使其更具判别性。相比之下，Group-DETR、H-DETR和SQR缺乏这种机制。尽管这些方法引入了更多的正查询，但通过匈牙利匹配实现的一对多分配仍然受到一对一匹配不稳定性的影响。我们的方法受益于现成的一对多分配的稳定性，并继承了正查询与真实框之间的特定匹配方式。Group-DETR和H-DETR未能揭示一对一匹配与传统一对多分配之间的互补性。据我们所知，我们是第一个对传统一对多分配和一对一匹配检测器进行定量和定性分析的工作。这帮助我们更好地理解它们的差异和互补性，从而能够自然地通过利用现成的一对多分配设计来提升DETR的学习能力，而无需额外的专门设计经验。

解码器中不引入负查询：重复的对象查询不可避免地会为解码器带来大量负查询，并显著增加GPU内存消耗。然而，我们的方法仅处理解码器中的正坐标，因此消耗的内存更少，如表7所示。

4. 实验

4.1 实验设置

数据集和评估指标：我们的实验在MS COCO 2017数据集和LVIS v1.0数据集上进行。COCO数据集包含115K张标注图像用于训练，5K张图像用于验证。我们默认在验证集上报告检测结果，同时也在测试集（20K张图像）上评估了我们最大模型的结果。LVIS v1.0是一个大规模长尾数据集，包含1203个类别，适用于大规模词汇实例分割任务。为了验证Co-DETR的可扩展性，我们进一步将其应用于大规模目标检测基准Objects365。Objects365数据集包含1.7M张标注图像用于训练，80K张图像用于验证。所有结果均遵循标准的平均精度（AP）指标，IoU阈值范围为0.5到0.95，适用于不同尺度的物体。

实现细节：我们将Co-DETR集成到当前的DETR类流程中，并保持训练设置与基线一致。我们采用ATSS和Faster-RCNN作为辅助头，当 K=2 时使用两者，当 K=1 时仅使用ATSS。更多关于辅助头的细节可以在补充材料中找到。我们将可学习的对象查询数量设置为300，默认设置 {λ1,λ2}}为 {1.0,2.0}。对于Co-DINO-Deformable-DETR++，我们使用大规模抖动和复制粘贴数据增强[10]。

4.2 主要结果

在本节中，我们通过表2和表3对不同DETR变体的Co-DETR的有效性和泛化能力进行了实证分析。所有结果均使用mmdetection[4]复现。我们首先将协作混合分配训练应用于具有C5特征的单尺度DETR。令人惊讶的是，Conditional-DETR和DAB-DETR在长时间训练后分别获得了2.4%和2.3%的AP提升。对于具有多尺度特征的Deformable-DETR，检测性能从37.1%显著提升至42.9% AP。即使训练时间增加到36轮，整体改进（+3.2% AP）仍然保持。此外，我们在改进的Deformable-DETR（记为Deformable-DETR++）上进行了实验，观察到+2.4%的AP提升。配备我们方法的最先进的DINO-Deformable-DETR可以达到51.2% AP，比竞争基线高出1.8% AP。

我们进一步将骨干网络的容量从ResNet-50扩展到Swin-L[25]。如表3所示，Co-DETR达到了56.9% AP，大幅超越了Deformable-DETR++基线（+1.7% AP）。使用Swin-L的DINO-Deformable-DETR的性能仍然可以从58.5%提升至59.5% AP。

4.3 与最先进方法的比较

我们将 K=2 的方法应用于Deformable-DETR++和DINO。此外，我们的Co-DINO-Deformable-DETR采用了质量焦点损失[19]和非极大值抑制（NMS）。我们在COCO验证集上的比较结果如表4所示。与其他竞争方法相比，我们的方法收敛速度更快。例如，Co-DINO-Deformable-DETR在使用ResNet-50骨干网络的情况下，仅用12轮训练就达到了52.1% AP。使用Swin-L的我们的方法在1倍调度器下可以达到58.9% AP，甚至超过了其他最先进框架在3倍调度器下的表现。更重要的是，我们的最佳模型Co-DINO-Deformable-DETR++在36轮训练下，使用ResNet-50和Swin-L分别达到了54.8% AP和60.7% AP，显著超越了所有使用相同骨干网络的现有检测器。

为了进一步探索我们方法的可扩展性，我们将骨干网络的容量扩展到3.04亿参数。这个大规模骨干网络ViT-L[7]使用自监督学习方法（EVA-02[8]）进行预训练。我们首先在Objects365数据集上对Co-DINO-Deformable-DETR进行26轮预训练，然后在COCO数据集上进行12轮微调。在微调阶段，输入分辨率在480×2400和1536×2400之间随机选择。详细设置可在补充材料中找到。我们的结果在测试时进行了数据增强。表5展示了在COCO测试集上的最先进比较结果。在模型规模更小（304M参数）的情况下，Co-DETR在COCO测试集上创下了66.0% AP的新纪录，比之前的最佳模型InternImage-G[34]高出0.5% AP。

我们还在长尾LVIS检测数据集上展示了Co-DETR的最佳结果。特别是，我们使用与COCO相同的Co-DINO-Deformable-DETR++模型，但选择FedLoss[42]作为分类损失，以缓解数据分布不平衡的影响。在这里，我们仅应用边界框监督并报告目标检测结果。比较结果如表6所示。使用Swin-L的Co-DETR在LVIS验证集和minival上分别达到了56.9%和62.3% AP，超过了使用MAE预训练的ViT-H[13]和GLIPv2[40]，分别高出3.5%和2.5% AP。我们进一步在Objects365预训练的Co-DETR上对该数据集进行微调。在没有复杂测试时数据增强的情况下，我们的方法在LVIS验证集和minival上分别达到了67.9%和71.9% AP的最佳检测性能。与具有30亿参数的InternImage-G相比，我们在LVIS验证集和minival上分别获得了+4.7%和+6.1%的AP提升，同时将模型规模缩小到1/10。

4.4 消融实验

除非另有说明，所有消融实验均在Deformable-DETR上进行，使用ResNet-50骨干网络。我们默认将辅助头的数量 K 设置为1，并将总批量大小设置为32。更多消融实验和分析可以在补充材料中找到。

选择辅助头的标准：我们进一步探讨了选择辅助头的标准，结果如表7和表8所示。表8中的结果表明，任何具有一对多标签分配的辅助头都能持续改进基线性能，而ATSS表现最佳。我们发现，当 K 小于3时，随着 K 的增加，精度持续提高。值得注意的是，当 K=6 时，性能出现下降，我们推测这是由于辅助头之间的严重冲突导致的。如果辅助头之间的特征学习不一致，随着 K 的增加，持续改进的效果将被破坏。我们还在补充材料中分析了多个头的优化一致性。总之，我们可以选择任何头作为辅助头，并且当 K≤2 时，ATSS和Faster-RCNN是获得最佳性能的常见选择。我们避免使用过多的不同头（例如6个不同的头），以避免优化冲突。

ATSS的基线达到了49.5% AP，而用6个不同的头替换ATSS后，性能下降到48.9% AP。因此，我们推测过多的不同辅助头（例如超过3个不同的头）会加剧冲突。总之，优化冲突受辅助头数量和这些头之间关系的影响。

添加的头是否应该不同？：使用两个ATSS头的协作训练（49.2% AP）仍然比使用一个ATSS头的模型（48.7% AP）有所改进，因为ATSS在我们的分析中与DETR头互补。此外，引入一个多样化且互补的辅助头（例如Faster-RCNN）而不是与原始头相同的头，可以带来更好的增益（49.5% AP）。需要注意的是，这与上述结论并不矛盾；相反，当 K≤2 时，由于冲突不显著，我们可以获得最佳性能，但当使用过多的不同头（K>3）时，冲突会变得严重。

每个组件的影响：我们进行了组件级消融实验，以全面分析每个组件的影响，结果如表9所示。引入辅助头带来了显著的增益，因为密集的空间监督使编码器特征更具判别性。此外，引入自定义正查询也对最终结果有显著贡献，同时提高了一对一集合匹配的训练效率。这两种技术都可以加速收敛并提高性能。总之，我们观察到整体改进源于编码器更具判别性的特征和解码器更高效的注意力学习。

与更长训练计划的比较：如表10所示，我们发现Deformable-DETR无法从更长的训练中受益，因为其性能趋于饱和。相反，Co-DETR大大加速了收敛，并提高了峰值性能。

辅助分支的性能：令人惊讶的是，我们观察到Co-DETR也为辅助头带来了持续的增益，如表11所示。这表明我们的训练范式有助于生成更具判别性的编码器表示，从而提高了解码器和辅助头的性能。

原始和自定义正查询的分布差异：我们在图7a中可视化了原始正查询和自定义正查询的位置。每张图像仅显示一个物体（绿色框）。解码器中通过匈牙利匹配分配的正查询标记为红色。从Faster-RCNN和ATSS提取的正查询分别标记为蓝色和橙色。这些自定义查询分布在实例的中心区域，为检测器提供了足够的监督信号。

分布差异是否会导致不稳定性？：我们在图7b中计算了原始查询和自定义查询之间的平均距离。原始负查询与自定义正查询之间的平均距离显著大于原始正查询与自定义正查询之间的距离。由于原始查询和自定义查询之间的分布差异较小，因此在训练过程中没有遇到不稳定性问题。

5. 结论

在本文中，我们提出了一种新颖的协作混合分配训练方案（Co-DETR），通过多样化的标签分配方式，学习更高效和有效的基于DETR的检测器。这种新的训练方案通过训练多个并行辅助头（由一对多标签分配监督），轻松增强了端到端检测器中编码器的学习能力。此外，我们通过从这些辅助头中提取正样本的坐标，生成额外的自定义正查询，以提高解码器中正样本的训练效率。在COCO数据集上的大量实验证明了Co-DETR的效率和有效性。令人惊讶的是，结合ViT-L骨干网络，我们在COCO测试集上达到了66.0% AP，在LVIS验证集上达到了67.9% AP，建立了新的最先进检测器，且模型规模更小。