[转载]Real-Time Object Detection Meets DINOv3

DEIMv2:全场景实时目标检测
  • 标题:Real-Time Object Detection Meets DINOv3

  • 工程主页:https://intellindust-ai-lab.github.io/projects/DEIMv2/

  • 开源代码:https://github.com/Intellindust-AI-Lab/DEIMv2

  • 论文下载地址:https://arxiv.org/pdf/2509.20787

原文链接:https://mp.weixin.qq.com/s/VpJtJOKHcqMuEGGC0VIafw

在实时目标检测领域,DETR系列凭借端到端设计和Transformer带来的强大表征能力,正逐步打破YOLO系列的垄断地位。而最近发布的DEIMv2模型,通过创造性地融合DINOv3的语义特征与轻量化设计,在从GPU到移动端的全场景部署中实现了性能突破。

一、背景

实时目标检测的核心挑战始终是精度与效率的平衡,既要满足自动驾驶、工业缺陷检测等场景对高AP(Average Precision)的需求,又要适配边缘设备、移动端的算力限制。

在DEIMv2出现之前,主流方案分为两大阵营:

  • YOLO系列:基于CNN的单阶段检测器,凭借高效的backbone和Anchor设计占据轻量化市场,但在大目标检测和端到端优化上存在短板;

  • DETR系列:基于Transformer的端到端方案,解决了Anchor依赖问题,大目标检测精度更优,但传统DETR模型(如RT-DETR)参数规模大、计算成本高,难以覆盖边缘场景。

DEIM(DETR with Improved Matching)作为前作,已通过Dense O2O(One-to-One Matching)和MAL(Matchability-Aware Loss)优化,成为实时DETR的主流框架。而DEIMv2的关键突破在于:将DINOv3的强语义特征与轻量化适配方案结合,首次实现了从“超轻量移动端”到“高性能GPU”的全场景覆盖。

图片

二、DEIMv2核心设计:从Backbone到Decoder的全链路优化

DEIMv2的架构遵循RT-DETR的“Backbone→Encoder→Decoder”范式,但在每个模块都进行了针对性创新。其最显著的特点是分场景设计:针对大模型(X/L/M/S)采用DINOv3预训练ViT backbone,针对超轻量模型(Nano/Pico/Femto/Atto)采用剪枝后的HGNetv2,同时通过STA、高效Decoder等组件实现性能与效率的统一。

2.1 Backbone设计:分场景适配的“双轨制”

图片

DEIMv2的Backbone选择并非一刀切,而是根据部署场景的算力预算,设计了两种适配方案:

(1)大模型:DINOv3预训练ViT与STA的协同

对于需要高精度的X/L/M/S变体,DEIMv2直接复用DINOv3的预训练权重,这是其语义特征强大的核心原因。DINOv3作为自监督学习的SOTA模型,在大规模数据上预训练的ViT backbone,能捕捉到更丰富的全局语义信息。但ViT存在一个关键问题:天然输出单尺度特征(1/16分辨率),而目标检测需要多尺度特征以应对不同大小的物体。

为解决这一问题,DEIMv2提出了Spatial Tuning Adapter(STA),一个无参数、高效率的特征适配模块。其工作原理可分为两步:

  1. 多尺度特征生成:从ViT的中间层(如第5、8、11层)提取1/16尺度特征,通过双线性插值(Bilinear Interpolation) 无参数地将其 resize 到1/8、1/16、1/32三种尺度,覆盖小、中、大目标的检测需求;

  2. Bi-Fusion特征融合:通过1×1卷积将ViT的语义特征与轻量级CNN提取的细粒度细节特征融合,既保留DINOv3的全局语义,又补充小目标所需的局部细节。

STA的优势在于零额外参数,仅通过插值和卷积融合,就在不增加计算负担的前提下,解决了ViT单尺度输出的缺陷。

(2)超轻量模型:HGNetv2的深度与宽度剪枝

对于边缘设备(如手机、嵌入式芯片),ViT的计算成本仍过高。DEIMv2选择HGNetv2(百度PaddlePaddle团队提出的高效CNN)作为基础,并通过结构化剪枝进一步压缩:

  • 深度剪枝:移除HGNetv2-B0的第4阶段,仅保留到1/16尺度输出(如Pico变体);

  • 宽度剪枝:减少最后一层的通道数(如Atto变体将通道从512压缩到256);

  • 阶段简化:减少每个阶段的Block数量(如Femto变体将Pico的最后阶段Block数从2减至1)。

通过剪枝,DEIMv2的超轻量变体(如Pico)仅需1.5M参数,却能实现38.5 AP,参数规模比YOLOv10-Nano(2.3M)减少约50%。

2.2 Decoder优化:效率优先的Transformer改进

DETR的Decoder是计算密集型模块,DEIMv2通过三项优化降低其成本,同时保持精度:

(1)替换低效组件:SwiGLUFFN与RMSNorm
  • SwiGLUFFN替代传统FFN:传统Transformer的FFN采用ReLU激活,计算量大且非线性表达能力有限;SwiGLUFFN(基于Sigmoid的门控激活)在减少计算量的同时,增强了特征的非线性表征;

  • RMSNorm替代LayerNorm:LayerNorm需要计算均值和方差,且存在冗余计算;RMSNorm仅通过Root Mean Square归一化,在训练稳定性和推理速度上均优于LayerNorm,且参数更少。

(2)共享Query位置嵌入:减少冗余计算

DETR的Decoder通过多轮迭代优化Object Query,但实验发现:Query的位置嵌入(Position Embedding)在迭代中变化极小。因此DEIMv2提出“跨层共享位置嵌入”,所有Decoder层复用同一组位置嵌入,直接减少了(层数-1)倍的位置嵌入计算量。

(3)增强Dense O2O:Object-level Copy-Blend数据增强

前作DEIM的Dense O2O通过增加单图训练目标数量提升监督强度,但仅依赖Mosaic、MixUp等图像级增强。DEIMv2进一步引入Copy-Blend

  • 与Copy-Paste(直接覆盖目标区域)不同,Copy-Blend将新目标与原图背景融合,避免了背景信息丢失;

  • 仅添加目标区域,不引入冗余背景,显著提升了小样本目标的监督有效性。

2.3 损失函数:分模型的动态加权策略

DEIMv2的总损失函数是多组件的加权和,核心是根据模型规模动态调整损失项,避免过拟合或欠拟合:

各损失项的作用与权重设置:

  • L_{mal}(Matchability-Aware Loss):优化Query与目标的匹配精度,权重\lambda _{1}=1.0

  • L_{fgl}(Fine-Grained Localization Loss):提升边界框定位精度,权重\lambda _{1}=0.15

  • L_{ddf}(Decoupled Distillation Focal Loss):通过蒸馏增强分类精度,权重\lambda _{1}=1.5

  • L_{bbox}(L1损失):边界框回归基础损失,权重\lambda _{1}=5

  • L_{giou}(GIoU损失):解决边界框重叠时的回归偏差,权重\lambda _{1}=2

关键创新在于: 超轻量模型(Pico/Femto/Atto)移除L_{fgl} L_{ddf}。原因是超轻量模型的容量有限,自蒸馏损失(L_{ddf})和细粒度定位损失(L_{fgl})会导致过拟合,反而降低性能。

三、实验结果

DEIMv2在COCO val2017数据集上的表现,全面超越了YOLO系列和传统DETR模型。

图片

3.1 大模型:用更少参数实现更高AP

DEIMv2的X/L变体在参数和计算量显著低于竞品的情况下,AP表现更优:

  • DEIMv2-X:50.3M参数,151 GFLOPs,57.8 AP;而前作DEIM-X需要62M参数、202 GFLOPs,仅能达到56.5 AP;

  • DEIMv2-L:32.18M参数,96.32 GFLOPs,56.0 AP;对比YOLOv12-L-turbo(27M参数,82 GFLOPs,54.0 AP),AP提升2个百分点。

更关键的是,DEIMv2的大模型在中大型目标检测上优势明显:DEIMv2-X的AP_{M}(中等目标AP)达62.9,AP_{L}(大目标AP)达75.9,分别比DEIM-X提升1.5和1.7个百分点,这正是DINOv3强语义特征的直接体现。

3.2 轻量模型:首次突破10M参数50 AP

DEIMv2-S是首个参数低于10M却突破50 AP的模型

  • 仅9.71M参数,25.62 GFLOPs,50.9 AP;

  • 对比同量级的DEIM-S(10M参数,49.0 AP),AP提升1.9个百分点;

  • 对比YOLOv11-S(9M参数,46.6 AP),AP提升4.3个百分点。

这一突破证明:ViT backbone在轻量化场景中并非“高成本代名词”,通过STA适配和Decoder优化,ViT的语义优势可在低参数规模下充分发挥。

3.3 超轻量模型:边缘部署的极致效率

图片

对于边缘设备,DEIMv2的Nano/Pico/Femto/Atto变体展现了极致的效率:

  • DEIMv2-Pico:1.51M参数,5.15 GFLOPs,38.5 AP;与YOLOv10-Nano(2.3M参数,38.5 AP)精度持平,但参数减少40%;

  • DEIMv2-Atto:0.49M参数,0.76 GFLOPs,23.8 AP;可部署于算力极低的嵌入式设备(如MCU),仍能满足基础检测需求。

四、总结

DEIMv2的核心价值在于:用统一的框架覆盖了从GPU到移动端的全场景部署需求,并通过DINOv3的语义特征与轻量化设计的结合,重新定义了实时目标检测的精度-效率边界。其技术亮点可概括为三点:

  1. 分场景Backbone设计:大模型用DINOv3-ViT+STA,超轻量模型用剪枝HGNetv2,兼顾精度与效率;

  2. 无参数特征适配:STA解决了ViT单尺度问题,且不增加额外计算;

  3. 动态损失策略:根据模型规模调整损失项,避免过拟合。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值