DINOv2：在没有监督的情况下学习鲁棒的视觉特征

AI智韵

已于 2023-06-27 05:55:20 修改

阅读量741

点赞数 1

CC 4.0 BY-SA版权

分类专栏：高质量AI论文翻译文章标签：计算机视觉人工智能深度学习

于 2023-04-23 18:14:51 首次发布

不能复制，转发

本文链接：https://blog.youkuaiyun.com/m0_47867638/article/details/130327607

高质量AI论文翻译专栏收录该内容

184 篇文章 ¥99.90 ¥299.90

订阅专栏

文章目录

摘要
1、简介
2、相关工作
3、Data Processing
4、判别自监督预训练
5、高效执行
6、消融研究
- 6.1、改进的训练方法
- 6.2、预训练数据源
- 6.4、Loss的组成
- 6.5、知识蒸馏的影响
- 6.6、分辨率的影响
7、结果
- 7.1 ImageNet分类
- 7.2、额外的图像和视频分类基准
- 7.3、实例识别
- 7.4、密集识别任务
- 7.5、定性结果
8、公平与偏见分析
- 8.1、地域公平
- 8.2、性别、肤色和年龄
9、评估模型训练对环境的影响
10、未来的工作和讨论
A、数据处理
- A.1、数据选择
- A.2、图像相似度
- A.3 、数据去重
A.4、检索
B、实现细节
- B.1、无监督的预训练
- B.2、高分辨率适应
- B.3、线性探测评价
C、用于评估的基准列表

摘要

最近在自然语言处理中对大量数据进行模型预训练的突破为计算机视觉中类似的基础模型开辟了道路。这些模型可以极大地简化图像在任何系统中的使用，因为它产生了通用的视觉特征，也就是说，无需微调就可以跨图像分布和任务工作的特征。这项工作表明，现有的预训练方法，特别是自监督方法，如果在来自不同来源的足够多的精心整理的数据上训练，可以产生这样的特征。我们重新审视现有的方法，并结合不同的技术，在数据和模型大小方面扩展我们的预训练。大多数技术贡献旨在加速和稳定大规模培训。在数据方面，我们提出了一个自动管道来构建一个专用的、多样化的、经过管理的图像数据集，而不是像自我监督文献中通常做的那样未经管理的数据。在模型方面，我们用1B个参数训练了一个ViT模型(Dosovitskiy等人，2020)，并将其提炼成一系列较小的模型，这些模型在图像和像素级别的大多数基准上超过了可用的最佳通用功能OpenCLIP (Ilharco等人，2021)。

1、简介

学习任务无关的预训练表示已经成为自然语言处理(NLP)的标准(Radford等人;Raffel等人，2020;Chowdhery等人，2022;Hoffmann等人，2022;Touvron等人，2023)。人们可以"按原样"使用这些特征，即无需微调，并在下游任务上实现明显优于特定任务模型产生的性能(Brown等人，2020)。这一成功得益于使用前置目标对大量原始文本进行预训练，如无需监督的语言建模(Radford et al.， 2017)或词向量(Devlin et al.， 2018)。

遵循NLP中的这种范式转变，我们预计类似的"基础"模型将出现在计算机视觉中(B

了解本专栏