文章目录
摘要
最近在自然语言处理中对大量数据进行模型预训练的突破为计算机视觉中类似的基础模型开辟了道路。这些模型可以极大地简化图像在任何系统中的使用,因为它产生了通用的视觉特征,也就是说,无需微调就可以跨图像分布和任务工作的特征。这项工作表明,现有的预训练方法,特别是自监督方法,如果在来自不同来源的足够多的精心整理的数据上训练,可以产生这样的特征。我们重新审视现有的方法,并结合不同的技术,在数据和模型大小方面扩展我们的预训练。大多数技术贡献旨在加速和稳定大规模培训。在数据方面,我们提出了一个自动管道来构建一个专用的、多样化的、经过管理的图像数据集,而不是像自我监督文献中通常做的那样未经管理的数据。在模型方面,我们用1B个参数训练了一个ViT模型(Dosovitskiy等人,2020),并将其提炼成一系列较小的模型,这些模型在图像和像素级别的大多数基准上超过了可用的最佳通用功能OpenCLIP (Ilharco等人,2021)。
1、简介
学习任务无关的预训练表示已经成为自然语言处理(NLP)的标准(Radford等人;Raffel等人,2020;Chowdhery等人,2022;Hoffmann等人,2022;Touvron等人,2023)。人们可以"按原样"使用这些特征,即无需微调,并在下游任务上实现明显优于特定任务模型产生的性能(Brown等人,2020)。这一成功得益于使用前置目标对大量原始文本进行预训练,如无需监督的语言建模(Radford et al., 2017)或词向量(Devlin et al., 2018)。
遵循NLP中的这种范式转变,我们预计类似的"基础"模型将出现在计算机视觉中(B