【CVPR2025 DEIM全文解读】DETR 具有改进的匹配以实现快速收敛、适合小白快速入门了解DEIM模型

Ai缝合怪博士

已于 2025-11-15 23:57:57 修改

阅读量557

点赞数 7

CC 4.0 BY-SA版权

分类专栏：全新CVPR2025-DEIM创新改进项目+永久更新中文章标签：目标检测人工智能计算机视觉 DEIM创新改进 DFine创新改进 DEIM全文解读 CVPR 2025 DEIM

于 2025-10-27 16:08:19 首次发布

本文链接：https://blog.youkuaiyun.com/qq_45972324/article/details/153966730

全新CVPR2025-DEIM创新改进项目+永久更新中专栏收录该内容

80 篇文章 ¥259.90 ¥399.90

订阅专栏

🔥 🔥 🔥CVPR2025 DEIM 针对缓解 DETR 模型中一对一（O2O）匹配所固有的稀疏监督问题，以及尽管DETR密集 O2O 匹配加快了收敛速度，但它也引入了大量低质量匹配，这可能会影响性能，导致目标检测精度下降无法实时应用的困境。本文提出了DEIM，一种创新且高效的训练框架，旨在加速基于 Transformer 的实时目标检测模型（DETR）的收敛。

代码地址：https://github.com/Intellindust-AI-Lab/DEIM

论文地址：https://arxiv.org/abs/2412.04234

本文目录

3.1 预备知识（Preliminaries）

O2M vs. O2O 匹配策略

Focal Loss（焦点损失）

3.2 提高匹配效率：Dense O2O（密集一对一匹配）

3.3 提高匹配质量：Matchability-Aware Loss（可匹配性感知损失）

VFL 的局限性

Matchability-Aware Loss（MAL）

与 VFL 的对比

4. 实验（Experiments）

4.1 训练细节（Training Details）

4.2 与实时检测器的比较（Comparisons with Real-Time Detectors）

4.3 与基于 ResNet 的 DETR 方法对比

4.4 在 CrowdHuman 数据集上的对比

4.5 分析（Analysis）

4.5.1 实现 Dense O2O 的方式

4.5.2 MAL 中 γ 的影响

4.5.3 Dense O2O 与 MAL 的联合效果

4.5.4 训练速度

4.5.5 Object365 微调

5. 结论 Conclusion

摘要：我们提出了 DEIM，一种创新且高效的训练框架，旨在加速基于 Transformer 的实时目标检测模型（DETR）的收敛。为了缓解 DETR 模型中一对一（O2O）匹配所固有的稀疏监督问题，DEIM 引入了密集 O2O 匹配策略。该策略通过使用标准的数据增强技术（如 mosaic 和 mixup）来增加每张图像的正样本数量，从而提高每张图像中的目标数量。

尽管密集 O2O 匹配加快了收敛速度，但它也引入了大量低质量匹配，这可能会影响性能。为了应对这一问题，我们提出了一种新颖的损失函数——匹配感知损失（MAL），该损失函数能够根据匹配的质量进行优化，从而提升密集 O2O 匹配的有效性。

我们在 COCO 数据集上进行了广泛的实验，验证了 DEIM 的有效性。在与 RT-DETR 和 D-FINE 模型的集成中，DEIM 显著提升了性能，并将训练时间减少了 50%。特别是，与 RT-DETRv2 结合使用时，DEIM 在单日训练（约 24 轮）后，便能在 NVIDIA 4090 GPU 上达到 53.2% 的平均精度（AP）。此外，DEIM 训练的实时检测器超越了现有的领先实时目标检测器，其中 DEIM-D-FINE-L 和 DEIM-D-FINE-X 在 NVIDIA T4 GPU 上分别实现了 54.7% 和 56.5% 的平均精度，并且分别达到了 124 FPS 和 78 FPS 的速度，且无需额外数据。我们相信，DEIM 为实时目标检测的进展设定了一个新的基准。

1 引言（Introduction）

目标检测是计算机视觉中的一项基础任务，广泛应用于自动驾驶、机器人导航等多个领域。对高效检测器的需求日益增加，推动了实时目标检测方法的发展。尤其是，YOLO（You Only Look Once）成为了实时目标检测的主要范式之一，因其在延迟和精度之间的良好平衡而备受关注。YOLO 模型通常被认为是基于卷积神经网络（CNN）的单阶段检测器。YOLO 系列广泛采用了一对多（O2M）分配策略，在这种策略中，每个目标框与多个锚框关联。由于提供了密集的监督信号，这种策略被认为是有效的，它加速了收敛并提高了性能。然而，这种策略也带来了问题，即每个目标会生成多个重叠的边界框，需要通过手工设计的非极大值抑制（NMS）来去除冗余框，从而引入了延迟并导致不稳定性。

Transformer 结构的出现（例如 DETR）引起了广泛关注，DETR 使用多头注意力机制捕获全局上下文，从而改善了定位和分类精度。DETR 采用了一对一（O2O）匹配策略，利用匈牙利算法在训练过程中建立预测框与真实目标之间的唯一对应关系，消除了对 NMS 的需求。这种端到端的框架为实时目标检测提供了一种有吸引力的替代方案。

然而，DETR 仍然面临一个主要限制——收敛缓慢，我们认为其原因主要有两个：

稀疏监督：O2O 匹配机制为每个目标仅分配一个正样本，这大大限制了正样本的数量。相比之下，O2M 分配策略生成的正样本数量通常是 O2O 的几倍。这种正样本的稀缺性限制了密集监督的能力，尤其对小物体的检测至关重要，因为密集监督对于小物体的检测效果至关重要。
低质量匹配：与传统方法（通常使用超过 8000 个锚框）不同，DETR 采用少量（100 或 300 个）随机初始化的查询。这些查询与目标框的空间对齐性差，导致训练过程中出现大量低质量匹配，即那些匹配框与目标的重叠度（IoU）较低，但分类信心较高的情况。

为了解决 DETR 中的监督稀缺问题，近期的一些研究通过在 O2O 训练中引入 O2M 分配策略，放宽了 O2O 匹配的约束，从而增加了每个目标的辅助正样本。Group DETR [4] 通过使用多个查询组（每个组独立进行 O2O 匹配）来实现这一目标，而 Co-DETR [46] 则从 Faster R-CNN [29] 和 FCOS [31] 等目标检测器中借鉴了 O2M 方法。虽然这些方法成功增加了正样本的数量，但它们需要额外的解码器，增加了计算开销，并且容易生成冗余的高质量预测，这与传统检测器类似。

与此不同，我们提出了一种全新的、简便的方法，即 密集一对一匹配（Dense O2O）。我们的核心思想是通过增加每张训练图像中的目标数量，从而生成更多的正样本。值得注意的是，这一目标的增加可以通过使用经典的数据增强技术（如 mosaic 和 mixup）来实现，这样不仅增加了每张图像中的正样本数量，同时保持了 O2O 匹配框架的完整性。Dense O2O 能提供与 O2M 方法相当的监督量，而不增加传统 O2M 方法通常带来的复杂性和计算开销。

然而，尽管通过改进查询初始化（如引入先验信息）可以提高查询分布的有效性，但这些方法通常依赖于从编码器提取的有限特征信息，这使得查询会集中在几个显著物体上。相比之下，大多数不显著的物体周围缺少查询，这导致低质量匹配的情况变得更加严重。使用 Dense O2O 时，由于目标数量的增加，显著目标与不显著目标之间的差距也会增大，从而导致低质量匹配的增加。尽管如此，如果损失函数无法有效处理这些低质量匹配，这种差距将持续存在，进而影响模型的最终性能。

DETRs中现有的损失函数[19,40]，如VFL变焦损失[40]，是针对低质量匹配数量相对较少的密集锚点量身定制的。他们主要惩罚高质量的比赛，特别是那些借据高但可信度低的比赛，并丢弃低质量的比赛。为了解决低质量匹配并进一步改善密集O2O，我们提出了匹配感知损失(Matchability-Aware Loss, MAL)。MAL通过将匹配查询和具有分类置信度的目标之间的借据结合起来，根据可匹配性来调整惩罚。MAL在高质量比赛中的表现与VFL相似，但更强调低质量比赛，在训练中提高有限阳性样本的效用。此外，MAL提供了一个比VFL更简单的数学公式。

如图1所示。我们还通过缩小编码器和解码器并使用更小的骨干网络开发了缩放的RT - DETR，其性能优于更轻量级的YOLO检测器（S和M模型）。

提出的DEIM将密集O2O与MAL相结合，以创建有效的训练框架。我们在COCO[20]数据集上进行了大量的实验来评估DEIM的有效性。图 (a)的结果表明，DEIM显著加速了RT-DETRv2[24]和D-FINE[27]的收敛，性能也有所提高。具体来说，我们的方法只需要一半的训练次数，就能比RT-DETRv2和D-FINE分别高出0.2和0.6 AP。此外，我们的方法可以在单个4090 GPU上训练基于resnet50的DETR模型，在一天内(大约24个epoch)实现53.2%的mAP。通过整合更高效的模型，我们还引入了一组优于现有模型的新实时检测器，包括最新的YOLOv11[13]，为实时物体检测设置了新的最先进的(SoTA)(图1 (b))。

本文主要贡献总结如下：

(i).我们介绍了DEIM，一个简单且灵活的实时目标检测训练框架。

(ii).DEIM通过提高匹配的数量和质量，分别采用Dense O2O和MAL，加速了收敛过程。

(iii).通过我们的方法，现有的实时DETR模型在减少训练成本的同时实现了更好的性能。具体而言，我们的方法超越了YOLO，并在与D-FINE中的高效模型结合后，确立了实时目标检测的新最先进水平（SOTA）。

2 相关工作（Related Work）

基于Transformer的目标检测（DETR） [3] 代表了从传统CNN架构向Transformer的转变。通过使用匈牙利算法（Hungarian algorithm）[16] 实现一对一匹配，DETR消除了对手工设计的NMS后处理的需求，实现了端到端的目标检测。然而，它存在收敛速度慢和计算密集的问题。

2.1 提高正样本数量

一对一匹配限制了每个目标只有一个正样本，提供的监督信号远少于O2M（one-to-many）策略，从而阻碍了优化过程。一些研究致力于在O2O框架中提升监督信号。例如，Group DETR [4] 采用“分组”策略来近似O2M，它将查询划分为K个组（K > 1），在每组内独立进行O2O匹配，使每个目标可以获得K个正样本。但为了避免组间的通信，每组需要一个独立的解码器层，最终形成K个并行解码器。H-DETR [15] 的混合匹配机制与Group DETR类似。Co-DETR [46] 表明O2M分配方式有助于模型学习更具判别力的特征信息，因此提出了协同混合分配机制，通过借鉴Faster R-CNN [29] 和 FCOS [31] 的O2M标注策略，引入辅助头增强编码器的表示能力。现有方法的目标是增加每个目标的正样本数量以增强监督信号。而我们提出的 Dense O2O（密集一对一匹配） 探索的是另一个方向 —— 增加每张训练图像中的目标数量，以有效增强监督信号。与现有方法相比，我们的方法不需要额外的解码器或头部，因此不会增加训练资源的消耗，是一种零计算成本的方法。

2.2 优化低质量匹配

稀疏且随机初始化的查询与目标缺乏空间对齐，导致大量低质量匹配，阻碍了模型的收敛。一些方法通过引入先验知识来改进查询初始化，如Anchor Queries [35]、DAB-DETR [21]、DN-DETR [18] 和 Dense Distinct Queries [41]。最近，受两阶段范式 [29, 45] 启发，DINO [39] 和 RT-DETR [43] 利用编码器密集输出中排名靠前的预测结果来细化解码器的查询 [36]。这些策略使得查询的初始化更贴近目标区域。然而，低质量匹配仍然是一个重大挑战 [22]。RT-DETR [43] 使用 Varifocal Loss (VFL) 来降低分类置信度与边框质量之间的不确定性，从而提升实时性能。但VFL主要针对传统检测器中的少量低质量匹配，侧重于高IoU的优化，对于低IoU匹配因其平坦且较小的损失值而未被充分优化。基于上述先进的初始化方法，我们引入 Matchability-Aware Loss（MAL），以更好地在不同匹配质量水平上进行优化，显著提升 Dense O2O 匹配的有效性。

2.3 降低计算成本

标准的注意力机制涉及密集计算。为了提升效率并促进与多尺度特征的交互，已经发展出若干先进的注意力机制，例如 Deformable Attention [45]、Multi-scale Deformable Attention [42]、Dynamic Attention [7] 和 Cascade Window Attention [37]。此外，近期研究也在致力于构建更高效的编码器。例如，Lite DETR [17] 引入了一个在高低层特征之间交错更新的编码器块，而 RT-DETR [43] 在其编码器中结合了CNN和自注意力机制。这两种设计显著减少了资源消耗，尤其是RT-DETR。RT-DETR是首个在DETR框架下实现实时目标检测的模型。在此基础上，D-FINE [27] 通过引入额外模块并通过迭代更新概率分布（而非预测固定坐标）来优化RT-DETR的回归过程。这种方法实现了更优的延迟与性能权衡，略优于最新的YOLO系列模型。借助这些在实时DETR中的进展，我们的方法实现了出色的性能和更低的训练成本，在实时目标检测中大幅超越YOLO模型。

图 2. 我们提出的 DEIM 方法示意图。黄色、红色和绿色框分别表示 GT（真实框）、正样本 和 负样本。“pos.” 表示正样本。上图：我们的 Dense O2O（图 2c）可以提供与 O2M（图 2a）相同质量的正样本。下图：对于低质量匹配，使用 VFL [40] 和 MAL 时的损失值用 ★ 标记，表明 MAL 能更有效地优化这些情况。

3 方法（Method）

3.1 预备知识（Preliminaries）

O2M vs. O2O 匹配策略

O2M（One-to-Many，一对多）分配策略 [10, 44] 被传统目标检测器广泛采用，其监督形式可表示为：

其中，N 是目标总数，M_i 是第 i 个目标的匹配数量，$\hat{y}_{ij}$ 表示第 i 个目标的第 j 个匹配，$y_i$ 表示第 i 个目标的真实标签，f 是损失函数。O2M 通过增加 $M_i$（即每个目标分配多个查询）来增强监督，从而提供密集监督，如图 2（a）所示。

相对地，O2O（One-to-One，一对一）分配只为每个目标匹配一个最优预测结果，该预测结果通过匈牙利算法选择，以最小化分类和定位误差的加权成本函数（见图 2b）。O2O 可以被视为 O2M 的一个特殊情况，即对所有目标都满足 $M_i = 1$。

Focal Loss（焦点损失）

Focal Loss（FL）[19] 是为了解决训练过程中大量简单负样本主导学习的问题，它专注于优化困难样本，成为DETR系列默认的分类损失函数 [39, 45]。定义如下：

其中，$y \in {0, 1}$ 是真实类别标签，$p \in [0, 1]$ 是前景类别的预测概率。$\gamma$ 控制难易样本的平衡，$\alpha$ 控制前景与背景类别的权重。在该损失中，只考虑类别和置信度，而不考虑边界框的质量（即定位质量）。

3.2 提高匹配效率：Dense O2O（密集一对一匹配）

O2O 匹配通常用于 DETR 模型中，它通过匈牙利算法实现，将每个目标匹配到唯一一个预测查询。这种方式支持端到端训练，并且无需 NMS（非极大值抑制）。但其主要缺点在于，相比于传统 O2M 方法如 SimOTA [44]，它生成的正样本数量大大减少，导致监督稀疏，从而减缓模型训练的收敛速度。

图3。Anchor/Query匹配对比。使用一对多(SimOTA[3])和一对一(匈牙利[3])匹配方案比较一个COCO epoch中每个图像匹配的锚点/查询的数量。

为更好地理解该问题，我们使用 ResNet50 主干在 COCO 数据集 [20] 上训练 RT-DETRv2 [24]，对比了匈牙利匹配（O2O）与 SimOTA（O2M）生成的正样本数量。如图 3a 所示，O2O 每张图像的正样本数量集中在10以下，而 O2M 呈现更宽广的分布，在极端情况下甚至超过80个正样本（图 3b）。这说明O2O提供的正样本远少于O2M，可能拖慢优化过程。

为此我们提出 Dense O2O 作为一种高效替代方案。该策略保留 O2O 的匹配结构（仍满足 $M_i = 1$），但通过增加每张图像中的目标数量（N），来实现更密集的监督。例如如图 2c 所示，我们将原图复制成四个子图拼接成一张图像，保持原始图像尺寸不变，目标数量从1增加到4，提升了监督程度，但匹配结构保持不变。Dense O2O 在无需增加计算复杂度的前提下，实现了与 O2M 相当的监督强度。

3.3 提高匹配质量：Matchability-Aware Loss（可匹配性感知损失）

VFL 的局限性

VariFocal Loss (VFL) [40] 是建立在 FL [19] 基础上的改进方法，提升了目标检测性能，特别是在 DETR 模型中表现良好 [2, 24, 43]。其定义为：

其中，q 表示预测框与目标框之间的IoU。当 $q > 0$（前景样本）时，将目标标签设为 q；当 $q = 0$（背景样本）时，目标标签为0。VFL 通过引入 IoU 来提升 DETR 中的匹配质量。

然而，VFL 存在两个关键局限性：

对低质量匹配不敏感：VFL 主要关注高质量匹配（高IoU），而对低IoU匹配的损失值较小，如图 2e 所示，即使置信度增加，损失也几乎不变。
忽视边界负样本：VFL 将无重叠的匹配视为负样本，这减少了正样本数量，限制了有效训练。

这些问题在传统检测器中由于 anchor 密集而不明显，但在 DETR 中，查询稀疏、匹配刚性，VFL 的缺陷更为显著。

Matchability-Aware Loss（MAL）

为解决上述问题，我们提出 Matchability-Aware Loss（MAL），其保留了VFL的优势，同时增强了对低质量匹配的处理能力。MAL 将匹配质量直接融入损失函数中，对低质量匹配更加敏感。定义如下：

MAL与 VFL 相比，MAL 引入了一些关键改动：

将目标标签从 q 替换为 $q^\gamma$；
简化了损失的加权机制，移除了原本用于平衡正负样本的 $\alpha$ 超参数。

这些改动有助于避免对高IoU样本的过度关注，从而改善训练流程。如图 2f 所示，MAL 相比 VFL 对低质量匹配具有更陡峭的损失梯度。

图4。VFL与MAL的比较。比较低质量(IoU = 0.05，图4a)和高质量(IoU = 0.95，图4b)匹配病例的VFL和我们的MAL。

与 VFL 的对比

我们对比了 MAL 和 VFL 在处理不同质量匹配时的表现：

低质量匹配（IoU = 0.05）：如图 4a 所示，随着预测置信度提升，MAL 的损失迅速增长，而 VFL 几乎不变。
高质量匹配（IoU = 0.95）：如图 4b 所示，MAL 与 VFL 表现相似，说明在保持高质量匹配性能的同时，MAL 提升了低质量匹配的优化效率。

这部分的方法整体总结为：

Dense O2O 提供了与O2M相当的监督强度，同时保留DETR的O2O结构和端到端优势。

Matchability-Aware Loss 解决了低质量匹配优化不足的问题，提升了模型整体训练效率和性能。

4. 实验（Experiments）

4.1 训练细节（Training Details）

对于 Dense O2O，我们采用了 Mosaic 数据增强 [1] 和 Mixup 数据增强 [38]，以在每张图像中生成更多的正样本。这两种增强方法的影响将在第 4.5 节中详细讨论。

我们在 MS-COCO 数据集 [20] 上使用 AdamW 优化器 [23] 训练模型。与 RT-DETR [24, 43] 和 D-FINE [27] 一致，使用标准的数据增强策略，如颜色抖动、缩放等。

我们采用 Flat Cosine 学习率调度器 [25]，并提出了一种新的数据增强调度策略（DataAug Scheduler）。在训练初期（通常前4个epoch），我们使用 数据增强预热策略（DataAug Warmup） 来简化注意力学习过程。

在训练到一半后，关闭 Dense O2O 会带来更好的效果。参考 RT-DETRv2 [43]，我们在最后两个 epoch 关闭数据增强。

我们的模型主干网络预训练于 ImageNet1k [8]。我们在分辨率为 640×640 的图像上，在 COCO 的验证集上进行模型评估。有关更多超参数细节，请参阅补充材料。

4.2 与实时检测器的比较（Comparisons with Real-Time Detectors）

表 1. 在 COCO val2017 上与实时目标检测器的比较。
我们将提出的方法分别集成到 D-FINE-L 和 D-FINE-X 中，构建了 DEIM-D-FINE-L 和 DEIM-D-FINE-X。我们将这些方法与基于 YOLO 和基于 DETR 的实时目标检测器进行了比较。
图中的 “★” 表示使用置信度阈值为 0.01 的 NMS 设置。

我们将 DEIM 应用到 D-FINE-L 和 D-FINE-X 中，形成了 DEIM-D-FINE-L 和 DEIM-D-FINE-X 两个模型，并与多个主流实时检测器进行了对比，包括 YOLOv8、YOLOv9、YOLOv10、YOLOv11，以及基于 DETR 的 RT-DETRv2 和 D-FINE。

表1结果显示，我们的方法在检测精度、推理延迟和训练成本等方面都优于当前最先进的模型。例如，在与 D-FINE-L 对比时，DEIM-D-FINE-L 的准确率提升了 0.7 AP，同时训练成本降低了约 30%，推理速度不变。小目标检测方面的提升最为明显，在 D-FINE-X 的基础上提升了 1.5 个点。

与 YOLOv11-X 相比，DEIM-D-FINE-L 不仅表现更好（54.7 vs 54.1 AP），还拥有更低的推理延迟。虽然在小目标 AP 上，YOLOv9-E 的表现略优，但我们的方法在整体准确率上仍领先。

4.3 与基于 ResNet 的 DETR 方法对比

表 2. 与基于 ResNet 的 DETR 方法在 COCO val2017 上的比较。
我们将所提出的方法集成到 ResNet50 和 ResNet101 中，构建了 DEIM-RT-DETRv2-R50 和 DEIM-RT-DETRv2-R101。我们将这些模型与使用 ResNet50 或 ResNet101 作为主干网络的其他主流 DETR 目标检测器进行了对比。

大多数 DETR 相关研究都使用 ResNet [14] 作为主干网络。为了更全面地比较，我们将 DEIM 应用于 RT-DETRv2 [24]。表 2 总结了实验结果。与原始 DETR 需要 500 个 epoch 的训练相比，现代 DETR 变体（包括我们的方法）大大缩短了训练时间，并提升了性能。

我们的 DEIM 展现了最显著的提升：

在仅需训练 36 个 epoch 的情况下，性能超过所有现有方法；
将 RT-DETRv2 与 ResNet-50 主干结合时，训练时间减少一半，AP 提升 0.5；
与 ResNet-101 结合时，AP 提升为 0.9；
相比 DINO-Deformable-DETR [39]，我们使用 ResNet-50 的变体 提升了 2.7 AP。

此外，DEIM 对小目标检测的改进也十分显著：

与 RT-DETRv2-R50 相比，小目标检测提升 1.3 AP；
与 RT-DETRv2-R101 相比，提升 2.1 AP；
延长训练至 72 个 epoch 后，尤其是小模型的表现进一步提升。

4.4 在 CrowdHuman 数据集上的对比

表3.D-FINE与我们的DEIM在CrowdHuman数据集[30]上的对比。两者均采用120个训练周期进行训练。

CrowdHuman [30] 是一个专用于密集人群场景下目标检测的基准数据集。

我们在 CrowdHuman 上复现了 D-FINE 和 DEIM 的组合配置，表 3 显示了实验结果：

我们的方法在 AP 上比 D-FINE-L 提升了 1.5；
尤其是在 小目标检测（APs）和高质量检测（AP75） 上提升更为明显（超过 3%）；
这表明我们的模型在密集目标和高精度定位方面的表现优异。

此外，该实验也验证了 DEIM 在不同数据集上的泛化能力和稳健性。

4.5 分析（Analysis）

在以下实验中，我们默认使用 RT-DETRv2 + ResNet50，并在 COCO val2017 上报告性能。

4.5.1 实现 Dense O2O 的方式

表4.不同马赛克与混洗增强策略组合下密集式O2O方法的对比。概率值表示训练过程中每个小批量数据集应用马赛克和混洗增强的概率。

我们探索了两种实现 Dense O2O 的方式：

Mosaic 增强 [1]：将四张图拼接为一张；
Mixup 增强 [38]：将两张图按照比例叠加。

这两种方法均能有效提高图像中的目标数量，从而增强监督。

如表 4 所示，在训练12个 epoch 后，相较于不使用目标增强的训练方式：

Mosaic 和 Mixup 均显著提高了模型性能；
二者结合可进一步加速收敛；
图 6 中显示，Dense O2O 相比传统 O2O 正样本数量明显增加。

4.5.2 MAL 中 γ 的影响

表5.γ在MAL中的影响（公式4）。我们在COCO[20]val2017数据集上进行了24个训练周期的性能评估。

表 5 展示了 γ 的不同取值对 MAL 的影响（训练 24 个 epoch）：

实验表明设置 $\gamma = 1.5$ 时性能最佳。

4.5.3 Dense O2O 与 MAL 的联合效果

表6.密集式O2O与MAL的影响。我们使用RT-DETRv2-R50[24]和D-FINE-L[27]进行实验。

表 6 显示了 Dense O2O 和 MAL 的组合带来的效果：

仅使用 Dense O2O，36 个 epoch 即可接近基线 72 epoch 的效果；
加入 MAL 后，性能进一步提升，主要表现在 边框质量的提升 上；
这与我们优化低质量匹配的目标一致。

我们的方法在 RT-DETRv2 和 D-FINE 上均展现出 稳健性和广泛适用性。

4.5.4 训练速度

我们提供了一种高效的实现方式，结合了 Mosaic 的缓存机制和 Mixup 的批内操作。表 7 展示了在单张 4090 GPU 上训练一个 epoch 的时间，DEIM 的速度几乎与基线持平（1.183 小时 vs. 1.181 小时），但收敛所需的总训练时间更少（71 小时 vs. 85 小时）。这表明我们的方法在保持效率的同时，显著加快了收敛速度。

4.5.5 Object365 微调

我们直接使用从 D-FINE 获取的预训练 Object365 权重，并对比了是否使用 DEIM 进行微调的效果。如表 8 所示，DEIM 在更少的微调轮数下表现更佳。这进一步验证了 DEIM 在预训练于大规模数据集时依然能带来稳定的性能提升。

5. 结论 Conclusion

本文提出了一种简单而有效的DEIM方法，用于提升 DETR 系列目标检测器的匹配效率和训练速度。我们的方法主要包括两项核心设计：

Dense One-to-One Matching（Dense O2O）：通过在每张图像中生成更多的正样本，使得一对一匹配机制在前期训练阶段获得更丰富的监督信号，从而加速收敛。
Matching-Aware Loss（MAL）：通过感知匹配质量，动态调整损失的权重，有效优化低质量匹配带来的训练瓶颈。

我们将 DEIM 集成到多种主流 DETR 架构中，在多个数据集上进行了全面验证，实验结果表明：