探访 DINO 家族 Part 1：始祖目标检测模型 DINO

才思喷涌的小书虫

于 2025-03-27 17:12:43 发布

阅读量600

点赞数 30

分类专栏：探访 DINO 家族文章标签：目标检测人工智能计算机视觉语言模型视觉检测自然语言处理 ai

本文链接：https://blog.youkuaiyun.com/weixin_51607793/article/details/146565930

版权

探访 DINO 家族专栏收录该内容

4 篇文章

订阅专栏

一、从 DETR 到 DINO

目标检测是计算机视觉中的基础任务，涉及识别和定位图像中的物体。传统的目标检测系统，如 Faster R-CNN 和 YOLO，就像一条复杂的生产流水线，需要多个精心设计的工序：先生成可能包含物体的区域（称为"锚点"），然后筛选重叠的预测（"非极大值抑制"）。这些方法虽然有效，但由于严重依赖卷积操作和手工设计的组件，其过于复杂且难以优化。

2020年，一项名为 DETR（DEtection TransFormer）的革命性技术出现了。它借鉴了自然语言处理中的 Transformer 架构，简化了整个检测过程，实现了真正的端到端目标检测。然而，尽管 DETR 方法优雅，但这些模型难以匹配改进后的经典检测器的性能，并且训练收敛缓慢。DINO 模型（具有改进型去噪锚框的 DETR）通过对 DETR 架构引入几项关键改进，解决了这些限制并实现了最先进的性能。

图1：DINO 模型与其他 DETR 变体的性能比较。(a) DINO 模型在 COCO val2017 上以更少的训练周期实现显著更高的 AP。(b) DINO 在各种模型尺寸上优于（当时）最先进的模型。

二、DINO 的架构与创新

如图 2 所示，DINO 模型的整体架构包含 4 个部分：

（1）骨干网络：使用 ResNet-50 或 Swin Transformer 从输入图像中提取特征。

（2）Transformer 编码器：处理并增强图像特征。

（3）Transformer 解码器：优化目标查询以预测物体位置和类别。

（4）预测头：为目标类别和边界框生成最终预测。

图2：DINO 架构概览，展示了具有对比性去噪训练的 Transformer 编码器-解码器结构。

DINO 模型在保留先前 DETR 变体架构基础的同时引入了几项关键创新，这些创新包括：

2.1 对比性去噪训练

我们经常遇见类似的难题：比如区分双胞胎、识别相似的动物品种。DINO 模型的第一个创新就是教会模型这种细微区分的能力。

想象你在教一个孩子认识猫：你会同时展示一只真正的猫（正样本）和一些看起来像猫但实际上不是的动物（负样本），比如小型犬或者幼狮，并告诉他们："这是猫，而这些看起来像猫但不是猫"。

DINO的对比性去噪训练就是这个道理。在训练过程中，它同时学习识别某个物体的正确版本（尽管有些噪声）和容易混淆的错误版本。这使得 DINO 能更准确地区分相似物体，减少重复检测的问题。

图3：对比性去噪训练过程。解码器在 CDN 组中处理正样本和负样本，帮助模型区分相似物体。

虽然 DN-DETR 引入去噪来稳定二分图匹配，但 DINO 模型经过对比性去噪训练以后，能够更高的精度。DN 和 DINO 模型之间的训练比较，清晰地展示了 DINO 模型在定位精度方面的改进：

图4 DN 和 DINO 之间的训练比较，显示了位置精度的性能差异。

2.2 混合查询选择

DINO的第二个创新类似于结合了人类的直觉和深入思考的优势——在寻找物体时，人类会先用“直觉”快速扫描可能的位置（“那里好像有个人形物体”），然后用“思考”仔细分析内容（“看外形和颜色，那是一个穿蓝色衣服的小男孩”）。DINO的混合查询选择模仿了这两个阶段：

（1）位置查询（从图像直接生成）：相当于直觉，告诉模型"看这里可能有东西"；

（2）内容查询（通过学习获得）：相当于思考，分析"这里的东西是什么"。

对比之前的 DETR 变体中，这种混合方法提供了更好的初始锚框位置，同时保持了学习内容查询的灵活性。通过利用编码器对图像内容的理解来放置初始锚框，DINO 模型实现了更好的初始化和更快的收敛。

图5 不同查询选择策略的比较：(a) 静态查询，(b) 纯查询选择，(c) DINO使用的混合查询选择。

2.3 二次前瞻机制

DINO的第三个创新就像是优秀的战略规划，不仅考虑当前决策，还考虑后续影响。想象你在玩国际象棋。新手只看当前一步，而高手会思考“如果我走这步，对方可能会如何应对，然后我该如何回应...”。

传统模型在检测物体时会逐步细化预测，但每一步只考虑当前信息。DINO 模型的二次前瞻允许后期更精确的分析反馈给前期决策，实现整体最优化。

图6：(a) 一次前瞻和 (b) 二次前瞻边界框预测细化机制的比较。

三、模型性能与优势

DINO 模型相比先前的基于 DETR 的检测器展示了显著的性能改进。关键性能指标包括：

（1）使用 ResNet-50 骨干网络在 COCO 上 12 轮训练达到 48.3 AP，36 轮训练达到51.0 AP；

（2）使用 ResNet-50 骨干网络并结合辅助损失达到 58.1 AP；

（3）在 Objects365 上进行预训练后，使用SwinL骨干网络在 COCO test-dev 上达到最先进的 63.3 AP。

图7：DINO、DN-Deformable-DETR 和 Deformable DETR 之间的训练收敛比较，显示 DINO 更快的收敛和更高的性能。

与此同时，论文证明，DINO 模型能在更短时间内训练出更准确的模型，大大提高了实际应用效率。

结语

DINO 模型在端到端目标检测方面取得了重大突破，不仅是在 COCO 基准测试上实现了最先进的结果，还显著提升了训练效率，使类 DETR 模型更适用于实际应用。

DINO 模型的成功证明了基于 Transformer 的目标检测方法的可行性，还开辟了新的研究方向。随着计算资源的增加和数据规模的扩大，DINO 模型展现出卓越的可扩展性和崭新的能力，为后续 DINO 家族的强大模型奠定了基调。

== 彩蛋 ==

1. 论文《DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection》，作者：Hao Zhang, Feng Li, Shilong Liu, Lei Zhang, Hang Su, Jun Zhu, Lionel M. Ni, Heung-Yeung Shum。链接：https://arxiv.org/abs/2203.03605

2. 调用最新 DINO 家族 API 请前往 DINO-X 开放平台：https://cloud.deepdataspace.com/