-
标题:Real-Time Object Detection Meets DINOv3
-
工程主页:https://intellindust-ai-lab.github.io/projects/DEIMv2/
-
开源代码:https://github.com/Intellindust-AI-Lab/DEIMv2
-
论文下载地址:https://arxiv.org/pdf/2509.20787
原文链接:https://mp.weixin.qq.com/s/VpJtJOKHcqMuEGGC0VIafw
在实时目标检测领域,DETR系列凭借端到端设计和Transformer带来的强大表征能力,正逐步打破YOLO系列的垄断地位。而最近发布的DEIMv2模型,通过创造性地融合DINOv3的语义特征与轻量化设计,在从GPU到移动端的全场景部署中实现了性能突破。
一、背景
实时目标检测的核心挑战始终是精度与效率的平衡,既要满足自动驾驶、工业缺陷检测等场景对高AP(Average Precision)的需求,又要适配边缘设备、移动端的算力限制。
在DEIMv2出现之前,主流方案分为两大阵营:
-
YOLO系列:基于CNN的单阶段检测器,凭借高效的backbone和Anchor设计占据轻量化市场,但在大目标检测和端到端优化上存在短板;
-
DETR系列:基于Transformer的端到端方案,解决了Anchor依赖问题,大目标检测精度更优,但传统DETR模型(如RT-DETR)参数规模大、计算成本高,难以覆盖边缘场景。
DEIM(DETR with Improved Matching)作为前作,已通过Dense O2O(One-to-One Matching)和MAL(Matchability-Aware Loss)优化,成为实时DETR的主流框架。而DEIMv2的关键突破在于:将DINOv3的强语义特征与轻量化适配方案结合,首次实现了从“超轻量移动端”到“高性能GPU”的全场景覆盖。

二、DEIMv2核心设计:从Backbone到Decoder的全链路优化
DEIMv2的架构遵循RT-DETR的“Backbone→Encoder→Decoder”范式,但在每个模块都进行了针对性创新。其最显著的特点是分场景设计:针对大模型(X/L/M/S)采用DINOv3预训练ViT backbone,针对超轻量模型(Nano/Pico/Femto/Atto)采用剪枝后的HGNetv2,同时通过STA、高效Decoder等组件实现性能与效率的统一。
2.1 Backbone设计:分场景适配的“双轨制”

DEIMv2的Backbone选择并非一刀切,而是根据部署场景的算力预算,设计了两种适配方案:
(1)大模型:DINOv3预训练ViT与STA的协同
对于需要高精度的X/L/M/S变体,DEIMv2直接复用DINOv3的预训练权重,这是其语义特征强大的核心原因。DINOv3作为自监督学习的SOTA模型,在大规模数据上预训练的ViT backbone,能捕捉到更丰富的全局语义信息。但ViT存在一个关键问题:天然输出单尺度特征(1/16分辨率),而目标检测需要多尺度特征以应对不同大小的物体。
为解决这一问题,DEIMv2提出了Spatial Tuning Adapter(STA),一个无参数、高效率的特征适配模块。其工作原理可分为两步:
-
多尺度特征生成:从ViT的中间层(如第5、8、11层)提取1/16尺度特征,通过双线性插值(Bilinear Interpolation) 无参数地将其 resize 到1/8、1/16、1/32三种尺度,覆盖小、中、大目标的检测需求;
-
Bi-Fusion特征融合:通过1×1卷积将ViT的语义特征与轻量级CNN提取的细粒度细节特征融合,既保留DINOv3的全局语义,又补充小目标所需的局部细节。
STA的优势在于零额外参数,仅通过插值和卷积融合,就在不增加计算负担的前提下,解决了ViT单尺度输出的缺陷。
(2)超轻量模型:HGNetv2的深度与宽度剪枝
对于边缘设备(如手机、嵌入式芯片),ViT的计算成本仍过高。DEIMv2选择HGNetv2(百度PaddlePaddle团队提出的高效CNN)作为基础,并通过结构化剪枝进一步压缩:
-
深度剪枝:移除HGNetv2-B0的第4阶段,仅保留到1/16尺度输出(如Pico变体);
-
宽度剪枝:减少最后一层的通道数(如Atto变体将通道从512压缩到256);
-
阶段简化:减少每个阶段的Block数量(如Femto变体将Pico的最后阶段Block数从2减至1)。
通过剪枝,DEIMv2的超轻量变体(如Pico)仅需1.5M参数,却能实现38.5 AP,参数规模比YOLOv10-Nano(2.3M)减少约50%。
2.2 Decoder优化:效率优先的Transformer改进
DETR的Decoder是计算密集型模块,DEIMv2通过三项优化降低其成本,同时保持精度:
(1)替换低效组件:SwiGLUFFN与RMSNorm
-
SwiGLUFFN替代传统FFN:传统Transformer的FFN采用ReLU激活,计算量大且非线性表达能力有限;SwiGLUFFN(基于Sigmoid的门控激活)在减少计算量的同时,增强了特征的非线性表征;
-
RMSNorm替代LayerNorm:LayerNorm需要计算均值和方差,且存在冗余计算;RMSNorm仅通过Root Mean Square归一化,在训练稳定性和推理速度上均优于LayerNorm,且参数更少。
(2)共享Query位置嵌入:减少冗余计算
DETR的Decoder通过多轮迭代优化Object Query,但实验发现:Query的位置嵌入(Position Embedding)在迭代中变化极小。因此DEIMv2提出“跨层共享位置嵌入”,所有Decoder层复用同一组位置嵌入,直接减少了(层数-1)倍的位置嵌入计算量。
(3)增强Dense O2O:Object-level Copy-Blend数据增强
前作DEIM的Dense O2O通过增加单图训练目标数量提升监督强度,但仅依赖Mosaic、MixUp等图像级增强。DEIMv2进一步引入Copy-Blend:
-
与Copy-Paste(直接覆盖目标区域)不同,Copy-Blend将新目标与原图背景融合,避免了背景信息丢失;
-
仅添加目标区域,不引入冗余背景,显著提升了小样本目标的监督有效性。
2.3 损失函数:分模型的动态加权策略
DEIMv2的总损失函数是多组件的加权和,核心是根据模型规模动态调整损失项,避免过拟合或欠拟合:

各损失项的作用与权重设置:
-
(Matchability-Aware Loss):优化Query与目标的匹配精度,权重
;
-
(Fine-Grained Localization Loss):提升边界框定位精度,权重
;
-
(Decoupled Distillation Focal Loss):通过蒸馏增强分类精度,权重
;
-
(L1损失):边界框回归基础损失,权重
;
-
(GIoU损失):解决边界框重叠时的回归偏差,权重
。
关键创新在于: 超轻量模型(Pico/Femto/Atto)移除和
。原因是超轻量模型的容量有限,自蒸馏损失(
)和细粒度定位损失(
)会导致过拟合,反而降低性能。
三、实验结果
DEIMv2在COCO val2017数据集上的表现,全面超越了YOLO系列和传统DETR模型。

3.1 大模型:用更少参数实现更高AP
DEIMv2的X/L变体在参数和计算量显著低于竞品的情况下,AP表现更优:
-
DEIMv2-X:50.3M参数,151 GFLOPs,57.8 AP;而前作DEIM-X需要62M参数、202 GFLOPs,仅能达到56.5 AP;
-
DEIMv2-L:32.18M参数,96.32 GFLOPs,56.0 AP;对比YOLOv12-L-turbo(27M参数,82 GFLOPs,54.0 AP),AP提升2个百分点。
更关键的是,DEIMv2的大模型在中大型目标检测上优势明显:DEIMv2-X的(中等目标AP)达62.9,
(大目标AP)达75.9,分别比DEIM-X提升1.5和1.7个百分点,这正是DINOv3强语义特征的直接体现。
3.2 轻量模型:首次突破10M参数50 AP
DEIMv2-S是首个参数低于10M却突破50 AP的模型:
-
仅9.71M参数,25.62 GFLOPs,50.9 AP;
-
对比同量级的DEIM-S(10M参数,49.0 AP),AP提升1.9个百分点;
-
对比YOLOv11-S(9M参数,46.6 AP),AP提升4.3个百分点。
这一突破证明:ViT backbone在轻量化场景中并非“高成本代名词”,通过STA适配和Decoder优化,ViT的语义优势可在低参数规模下充分发挥。
3.3 超轻量模型:边缘部署的极致效率

对于边缘设备,DEIMv2的Nano/Pico/Femto/Atto变体展现了极致的效率:
-
DEIMv2-Pico:1.51M参数,5.15 GFLOPs,38.5 AP;与YOLOv10-Nano(2.3M参数,38.5 AP)精度持平,但参数减少40%;
-
DEIMv2-Atto:0.49M参数,0.76 GFLOPs,23.8 AP;可部署于算力极低的嵌入式设备(如MCU),仍能满足基础检测需求。
四、总结
DEIMv2的核心价值在于:用统一的框架覆盖了从GPU到移动端的全场景部署需求,并通过DINOv3的语义特征与轻量化设计的结合,重新定义了实时目标检测的精度-效率边界。其技术亮点可概括为三点:
-
分场景Backbone设计:大模型用DINOv3-ViT+STA,超轻量模型用剪枝HGNetv2,兼顾精度与效率;
-
无参数特征适配:STA解决了ViT单尺度问题,且不增加额外计算;
-
动态损失策略:根据模型规模调整损失项,避免过拟合。
DEIMv2:全场景实时目标检测

1722

被折叠的 条评论
为什么被折叠?



