本文是LLM系列文章,针对《Scalable Pre-training of Large Autoregressive Image Models》的翻译。
摘要
本文介绍了AIM,这是一组用自回归目标预训练的视觉模型。这些模型的灵感来源于它们的文本对应物,即大型语言模型(LLM),并表现出类似的缩放特性。具体而言,我们强调了两个关键发现:(1)视觉特征的性能与模型容量和数据量有关,(2)目标函数的值与模型在下游任务上的性能相关。我们通过在20亿张图像上预训练70亿个参数AIM来说明这些发现的实际意义,该AIM在具有冻结主干的ImageNet1k上实现84.0%。有趣的是,即使在这种规模下,我们也没有观察到性能饱和的迹象,这表明AIM可能代表了训练大规模视觉模型的新前沿。AIM的预训练类似于LLM的预训练,并且不需要任何特定于图像的策略来稳定大规模的训练。
1 引言
2 相关工作
3 预训练数据集
4 方法
5 结果
6 讨论
在本文中,我们提出了一种简单且可扩展的方法,用于在没有监督的情况下大规模预训练视觉模型。我们在预训练过程中使用了一个生成自回归目标,并提出了一些技术贡献,以更好地适应下游转移。因此,我们观察到了自回归图像模型的许多理想性质。首先,使用普通transformer实现,我们的模型的容量可以毫不费力地扩展到70亿个参数,而无需求助于稳定性诱导技术或对每个模型规模的超参数进行广泛调整。其次,AIM在预训练任务上的表现与下游表现有很强的相关性。第三,AIM在15个识别基准上实现了强大的性能,优于先前
本文介绍了一种大规模预训练自回归图像模型(AIM)的方法,受大型语言模型(LLM)启发,显示了类似的缩放特性。研究发现,视觉模型的性能与模型容量和数据量正相关,且预训练目标值与下游任务性能相关。在20亿张图像上预训练的70亿参数AIM在ImageNet1k上达到84.0%的准确率,且未见性能饱和,预示着大规模视觉模型训练的新潜力。AIM的预训练过程无需特定图像稳定策略,为无监督视觉模型预训练提供了可扩展解决方案。
已下架不支持订阅
469

被折叠的 条评论
为什么被折叠?



