[转载]Real-Time Object Detection Meets DINOv3

DEIMv2：全场景实时目标检测

最新推荐文章于 2025-11-21 16:38:16 发布

转载最新推荐文章于 2025-11-21 16:38:16 发布 · 111 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s/VpJtJOKHcqMuEGGC0VIafw

文章标签：

#目标检测 #人工智能 #计算机视觉

图像处理+python+深度学习同时被 2 个专栏收录

137 篇文章

订阅专栏

目标检测

1 篇文章

订阅专栏

标题：Real-Time Object Detection Meets DINOv3
工程主页：https://intellindust-ai-lab.github.io/projects/DEIMv2/
开源代码：https://github.com/Intellindust-AI-Lab/DEIMv2
论文下载地址：https://arxiv.org/pdf/2509.20787

原文链接：https://mp.weixin.qq.com/s/VpJtJOKHcqMuEGGC0VIafw

在实时目标检测领域，DETR系列凭借端到端设计和Transformer带来的强大表征能力，正逐步打破YOLO系列的垄断地位。而最近发布的DEIMv2模型，通过创造性地融合DINOv3的语义特征与轻量化设计，在从GPU到移动端的全场景部署中实现了性能突破。

一、背景

实时目标检测的核心挑战始终是精度与效率的平衡，既要满足自动驾驶、工业缺陷检测等场景对高AP（Average Precision）的需求，又要适配边缘设备、移动端的算力限制。

在DEIMv2出现之前，主流方案分为两大阵营：

YOLO系列：基于CNN的单阶段检测器，凭借高效的backbone和Anchor设计占据轻量化市场，但在大目标检测和端到端优化上存在短板；
DETR系列：基于Transformer的端到端方案，解决了Anchor依赖问题，大目标检测精度更优，但传统DETR模型（如RT-DETR）参数规模大、计算成本高，难以覆盖边缘场景。

DEIM（DETR with Improved Matching）作为前作，已通过Dense O2O（One-to-One Matching）和MAL（Matchability-Aware Loss）优化，成为实时DETR的主流框架。而DEIMv2的关键突破在于：将DINOv3的强语义特征与轻量化适配方案结合，首次实现了从“超轻量移动端”到“高性能GPU”的全场景覆盖。

二、DEIMv2核心设计：从Backbone到Decoder的全链路优化

DEIMv2的架构遵循RT-DETR的“Backbone→Encoder→Decoder”范式，但在每个模块都进行了针对性创新。其最显著的特点是分场景设计：针对大模型（X/L/M/S）采用DINOv3预训练ViT backbone，针对超轻量模型（Nano/Pico/Femto/Atto）采用剪枝后的HGNetv2，同时通过STA、高效Decoder等组件实现性能与效率的统一。

2.1 Backbone设计：分场景适配的“双轨制”

DEIMv2的Backbone选择并非一刀切，而是根据部署场景的算力预算，设计了两种适配方案：

（1）大模型：DINOv3预训练ViT与STA的协同

对于需要高精度的X/L/M/S变体，DEIMv2直接复用DINOv3的预训练权重，这是其语义特征强大的核心原因。DINOv3作为自监督学习的SOTA模型，在大规模数据上预训练的ViT backbone，能捕捉到更丰富的全局语义信息。但ViT存在一个关键问题：天然输出单尺度特征（1/16分辨率），而目标检测需要多尺度特征以应对不同大小的物体。

为解决这一问题，DEIMv2提出了Spatial Tuning Adapter（STA），一个无参数、高效率的特征适配模块。其工作原理可分为两步：

多尺度特征生成：从ViT的中间层（如第5、8、11层）提取1/16尺度特征，通过双线性插值（Bilinear Interpolation） 无参数地将其 resize 到1/8、1/16、1/32三种尺度，覆盖小、中、大目标的检测需求；
Bi-Fusion特征融合：通过1×1卷积将ViT的语义特征与轻量级CNN提取的细粒度细节特征融合，既保留DINOv3的全局语义，又补充小目标所需的局部细节。

STA的优势在于零额外参数，仅通过插值和卷积融合，就在不增加计算负担的前提下，解决了ViT单尺度输出的缺陷。

（2）超轻量模型：HGNetv2的深度与宽度剪枝

对于边缘设备（如手机、嵌入式芯片），ViT的计算成本仍过高。DEIMv2选择HGNetv2（百度PaddlePaddle团队提出的高效CNN）作为基础，并通过结构化剪枝进一步压缩：

深度剪枝：移除HGNetv2-B0的第4阶段，仅保留到1/16尺度输出（如Pico变体）；
宽度剪枝：减少最后一层的通道数（如Atto变体将通道从512压缩到256）；
阶段简化：减少每个阶段的Block数量（如Femto变体将Pico的最后阶段Block数从2减至1）。

通过剪枝，DEIMv2的超轻量变体（如Pico）仅需1.5M参数，却能实现38.5 AP，参数规模比YOLOv10-Nano（2.3M）减少约50%。

2.2 Decoder优化：效率优先的Transformer改进

DETR的Decoder是计算密集型模块，DEIMv2通过三项优化降低其成本，同时保持精度：

（1）替换低效组件：SwiGLUFFN与RMSNorm

SwiGLUFFN替代传统FFN：传统Transformer的FFN采用ReLU激活，计算量大且非线性表达能力有限；SwiGLUFFN（基于Sigmoid的门控激活）在减少计算量的同时，增强了特征的非线性表征；
RMSNorm替代LayerNorm：LayerNorm需要计算均值和方差，且存在冗余计算；RMSNorm仅通过Root Mean Square归一化，在训练稳定性和推理速度上均优于LayerNorm，且参数更少。

（2）共享Query位置嵌入：减少冗余计算

DETR的Decoder通过多轮迭代优化Object Query，但实验发现：Query的位置嵌入（Position Embedding）在迭代中变化极小。因此DEIMv2提出“跨层共享位置嵌入”，所有Decoder层复用同一组位置嵌入，直接减少了（层数-1）倍的位置嵌入计算量。

（3）增强Dense O2O：Object-level Copy-Blend数据增强

前作DEIM的Dense O2O通过增加单图训练目标数量提升监督强度，但仅依赖Mosaic、MixUp等图像级增强。DEIMv2进一步引入Copy-Blend：

与Copy-Paste（直接覆盖目标区域）不同，Copy-Blend将新目标与原图背景融合，避免了背景信息丢失；
仅添加目标区域，不引入冗余背景，显著提升了小样本目标的监督有效性。

2.3 损失函数：分模型的动态加权策略

DEIMv2的总损失函数是多组件的加权和，核心是根据模型规模动态调整损失项，避免过拟合或欠拟合：

各损失项的作用与权重设置：

$L_{mal}$ （Matchability-Aware Loss）：优化Query与目标的匹配精度，权重 $\lambda _{1}=1.0$ ；
$L_{fgl}$ （Fine-Grained Localization Loss）：提升边界框定位精度，权重 $\lambda _{1}=0.15$ ；
$L_{ddf}$ （Decoupled Distillation Focal Loss）：通过蒸馏增强分类精度，权重 $\lambda _{1}=1.5$ ；
$L_{bbox}$ （L1损失）：边界框回归基础损失，权重 $\lambda _{1}=5$ ；
$L_{giou}$ （GIoU损失）：解决边界框重叠时的回归偏差，权重 $\lambda _{1}=2$ 。

关键创新在于： 超轻量模型（Pico/Femto/Atto）移除 $L_{fgl}$ 和 $L_{ddf}$ 。原因是超轻量模型的容量有限，自蒸馏损失（ $L_{ddf}$ ）和细粒度定位损失（ $L_{fgl}$ ）会导致过拟合，反而降低性能。

三、实验结果

DEIMv2在COCO val2017数据集上的表现，全面超越了YOLO系列和传统DETR模型。

3.1 大模型：用更少参数实现更高AP

DEIMv2的X/L变体在参数和计算量显著低于竞品的情况下，AP表现更优：

DEIMv2-X：50.3M参数，151 GFLOPs，57.8 AP；而前作DEIM-X需要62M参数、202 GFLOPs，仅能达到56.5 AP；
DEIMv2-L：32.18M参数，96.32 GFLOPs，56.0 AP；对比YOLOv12-L-turbo（27M参数，82 GFLOPs，54.0 AP），AP提升2个百分点。

更关键的是，DEIMv2的大模型在中大型目标检测上优势明显：DEIMv2-X的 $AP_{M}$ （中等目标AP）达62.9， $AP_{L}$ （大目标AP）达75.9，分别比DEIM-X提升1.5和1.7个百分点，这正是DINOv3强语义特征的直接体现。

3.2 轻量模型：首次突破10M参数50 AP

DEIMv2-S是首个参数低于10M却突破50 AP的模型：

仅9.71M参数，25.62 GFLOPs，50.9 AP；
对比同量级的DEIM-S（10M参数，49.0 AP），AP提升1.9个百分点；
对比YOLOv11-S（9M参数，46.6 AP），AP提升4.3个百分点。

这一突破证明：ViT backbone在轻量化场景中并非“高成本代名词”，通过STA适配和Decoder优化，ViT的语义优势可在低参数规模下充分发挥。

3.3 超轻量模型：边缘部署的极致效率

对于边缘设备，DEIMv2的Nano/Pico/Femto/Atto变体展现了极致的效率：

DEIMv2-Pico：1.51M参数，5.15 GFLOPs，38.5 AP；与YOLOv10-Nano（2.3M参数，38.5 AP）精度持平，但参数减少40%；
DEIMv2-Atto：0.49M参数，0.76 GFLOPs，23.8 AP；可部署于算力极低的嵌入式设备（如MCU），仍能满足基础检测需求。