Abstract
视觉转换器(ViT)是一种简单的神经结构,适用于多个计算机视觉任务。它有有限的内置架构先验,而最近的架构则包含了关于输入数据或特定任务的先验。最近的研究表明,vit受益于自我监督的预训练,特别是像BeiT这样的bert式的预训练。
在本文中,我们回顾了ViTs的监督训练。我们的过程建立并简化了训练ResNet-50的配方。它包括一个新的简单的数据增强程序,只有3个增强,更接近在自我监督学习的实践。我们对图像分类(ImageNet-1k上是否对ImageNet-21k进行预训练)、迁移学习和语义分割的评估表明,我们的过程比之前的完全监督训练方法有很大的优势。它还揭示了我们经过监督训练的ViT的性能与最近的架构相当。我们的研究结果可以作为最近在ViT上展示的自我监督方法的更好的基线。
1 Introduction
在NLP取得巨大成功后,transformer模型[55]及其衍生产品在计算机视觉中越来越受欢迎。它们越来越多地应用于图像分类[13]、检测分割[3]、视频分析等领域。特别是,多索维斯基等人[13]的视觉变压器(ViT)是卷积体系结构的合理选择。这支持采用变压器作为一种通用架构,能够通过注意过程[5,8]来学习卷积和更长范围的操作。相反,卷积网络[20,27,29,41]隐式地提供了内置的翻译不变性。因此,他们的训练不必事先学习这一点。因此,包含卷积的混合架构比普通变压器[18]收敛得更快也就不足为奇了。
因为它们只将补丁中像素的共定位作为先验,所以变压器必须在优化模型时学习图像的结构,以便它处理输入,以解决给定的任务。这可以是在有监督的情况下复制标签,也可以是在自我监督方法的情况下复制其他代理任务。然而,尽管它们取得了巨大的成功,但在计算机视觉方面研究如何有效地训练视觉变压器的工作却很少,特别是在像ImageNet- 1k这样的中型数据集上。由于多索维斯基等人[13]的工作,培训程序大多是来自Touvron等人[48]和Steiner等人[42]的提议的变体。相比之下,多部作品都提出了替代架构,通过引入池化、更有效的关注,或混合架构,重新合并卷积和金字塔结构。这些新设计虽然对某些任务特别有效,但却不那么普遍。一个难以解决的问题是,改进的性能是由于特定的架构设计,还是因为它像所建议的那样便于优化,这是与ViTs [60]进行卷积的情况。
最近,受流行的BerT预训练启发的自我监督方法给计算机视觉中的BerT时刻带来了希望。在自然语言处理领域和计算机视觉领域之间有一些类比,从变压器架构本身开始。然而,这些领域并不是在各个方面都是相同的:被处理的模式是不同性质的(连续的和离散的)。计算机视觉提供了像ImageNet [40]这样的大型注释数据库,并且在ImageNet上的完全监督预训练可以有效地处理不同的下游任务,如迁移学习[37]或语义分割。
没有进一步的工作完全监督方法在ImageNet很难得出结论如果有趣的性能自我监督方法像BeiT[2]是由于训练,如数据增强,正则化、优化,或一个潜在的机制,能够学习更一般的隐式表示。在本文中,我们并没有假装回答这个困难的问题,但我们希望通过更新普通的ViT架构的训练程序来满足这一争论。我们希望有助于更好地理解如何充分利用变压器的潜力和类似bert的预培训的重要性。我们的工作建立在完全监督和自我监督方法的最新技术基础上,有了关于数据增强的新见解。我们提出了在ImageNet-1k和ImageNet-21k上的视觉变压器的新训练方案。其主要成分如下:
·我们建立在怀特曼等人为[57]介绍的ResNet50的工作的基础上。特别地,我们采用二元交叉熵损失的仅训练。我们采用了这种方法,加入了能够显著改善大型ViT [51]训练的成分,即随机深度[24]和层尺度[51]。
•3-Augment:是一个简单的数据增强,灵感来自于用于自我监督学习。令人惊讶的是,通过ViT,我们观察到它比通常的自动/学习数据增强训练随机增强[6]更好。
•Simple Random Cropping。当在像ImageNet-21k这样更大的集合上进行预训练时,简单的随机裁剪比随机调整大小裁剪更有效。
•A lower resolution:在训练时的分辨率较低。这种选择减少了训练测试差异[53],但ViT没有得到充分利用。我们观察到,通过防止过拟合对最大模型也有正则化效应。例如,对于目标分辨率为224×224,在分辨率为126×126(81个标记)下预训练的ViT-H在ImageNet-1k上比在分辨率为224×224(256个标记)下预训练时获得更好的性能。这在训练前的要求也较低,因为tokens减少了70%。从这个角度来看,它提供了与掩码-自动编码器[19]类似的缩放属性。
我们的“新”训练策略并没有达到最大的模型,这比Touvron等人[48]的数据高效图像转换器(DeiT)又迈出了一步。因此,我们在图像分类和分割方面获得了具有竞争力的性能,即使与最近流行的架构如SwinTransformers[31]或现代凸网架构如ConvNext [32]相比。下面我们将指出一些有趣的结果。
•即使是在中型数据集上,我们也会利用具有更大容量的模型。例如,当仅在ImageNet1k上训练ViT-H时,我们的前1准确率达到85.2%,与文献中报道的224×224的最佳ViT-H相比,+提高了5.1%。
•我们对ImageNet-1k