视觉大模型DINOv2:自我监督学习的新领域

原创

已于 2023-11-12 23:29:34 修改 · 9.4k 阅读

60 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #大模型 #特征提取 #物体分割 #DINOv2

于 2023-11-12 23:28:20 首次发布

MetaAI发布了DINOv2，一种双阶段训练的Transformer模型，无需微调即可在多种下游任务中表现出色。它以其强大的图像特征提取能力和广泛的适用性，推动了计算机视觉领域的发展。文章详细介绍了DINOv2的特性和训练方法，以及其在深度估计等任务中的优秀表现。

1 DINOv2

1.1 DINOv2特点

前段时间，Meta AI 高调发布了 Segment Anything（SAM），SAM 以交互式方式快速生成 Mask，并可以对从未训练过的图片进行精准分割，可以根据文字提示或使用者点击进而圈出图像中的特定物体，其灵活性在图像分割领域内属首创。

但是，归根到底 SAM 是一个promptable segmentation system，主要应用于各种分割任务，对其他的视觉任务（e.g. Classification, Retrieval,VQA...）的帮助没有那么直接。
于是，在继[分割一切]，Meta AI 再次发布重量级开源项目——DINOv2，DINOv2 可以抽取到强大的图像特征，且在下游任务上不需要微调，这使得它适合作为许多不同的应用中新的 BackBone。

Meta开源DINOv2视觉大模型，无需微调，效果惊人！在人工智能研究领域，Meta再次引发了轰动！DINOv2，全称为”Dual-Stage Implicit Object-Oriented Network”，是一种基于Transformer的视觉模型。它采用了全新的双阶段训练方法，有效地将图像分类和对象检测任务结合起来。与以往的视觉模型相比，DINOv2具有更高的准确性和更快的推理速度。

无需微调就能达到卓越性能，使得DINOv2在易用性和灵活性方面具有巨大优势。在大多数情况下，模型一经训练，就能直接应用于各种实际场景。这不仅降低了模型的运行成本，同时也大大缩短了开发周期。对于那些需要处理海量图像和视频的应用领域，比如自动驾驶、智能监控和人脸识别等，DINOv2无疑将成为强大的解决方案。

与之前发布的 Segment Anything 相比，DINOv2 在应用领域和适用范围上更加广泛，文中的实验也涵盖了多个 CV中经典的下游任务。

在 Meta AI 官方的Blog中，将 DINOv2 的特性总结如下：

DINOv2 是一种训练高性能计算机视觉模型的新方法。
DINOv2 提供了强大的性能，并且不需要微调。
由于是自监督( self-supervision)，DINOv2 可以从任何图像集合中学习。同时，它还可以学习到当现有方法无法学习的某些特征，例如深度估计。

DINOv2 是一种新的高性能计算机视觉模型训练方法，使用自监督学习来实现与该领域中使用的标准方法相匹配或超越结果。与其他自监督系统一样，使用 DINOv2 方法的模型可以在不需要任何相关元数据的情况下对任何图像集合进行训练。这意味着它可以从它所接收到的所有图像中学习，而不仅仅是那些包含特定一组标签或 alt 文本或标题的图像。DINOv2 提供了可直接用作简单线性分类器输入的高性能特征。这种灵活性意味着 DINOv2 可用于创建许多不同计算机视觉任务的多用途骨干。
文中的实验展示了 DINOv2 在下游任务上的出色能力，例如分类、分割和图像检索等应用领域。其中，最令人惊讶的是，在深度估计方面，DINOv2 的结果明显优于 in-domain 与 out-of-domain 的 SOTA 的 pipeline。作者认为这种强大的域外表现是自监督特征学习和轻量级任务特定模块（例如线性分类器）相结合的结果。
最后，由于不采用 fine-tuning，骨干保持通用，同一特征可以同时用于许多不同任务。

论文地址：https://arxiv.org/pdf/2304.07193.pdf

代码地址：https://github.com/facebookresearch/dinov2

Demo地址：https://dinov2.metademolab.com/