TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE(Transformer 在图像中的应用)翻译

摘要

        虽然Transformer架构已成为自然语言处理任务的实际标准,但其在计算机视觉领域的应用仍然有限。在计算机视觉中,注意力机制要么与卷积网络结合使用,要么用于替换卷积网络的某些组件,同时保持其整体结构不变。我们证明了这种对卷积神经网络(CNN)的依赖并不是必需的,并且直接应用于图像块序列的纯Transformer在图像分类任务上可以表现得非常好。当在大量数据上进行预训练并迁移到多个中等规模或小规模图像识别基准(如ImageNet、CIFAR-100、VTAB等)时,与最先进的卷积网络相比,视觉Transformer(ViT)取得了卓越的结果,同时所需的训练计算资源也大幅减少。

1 引言

        基于自注意力的架构,尤其是Transformer(Vaswani等人,2017),已成为自然语言处理(NLP)的首选模型。主要方法是先在大规模文本语料库上进行预训练,然后在较小的特定任务数据集上进行微调(Devlin等人,2019)。得益于Transformer的计算效率和可扩展性,训练前所未有的大规模模型成为可能,参数超过1000亿(Brown等人,2020;Lepikhin等人,2020)。随着模型和数据集的增长,性能仍未出现饱和迹象。

然而,在计算机视觉领域,卷积架构仍然占据主导地位(LeCun等人,1989;Krizhevsky等人,2012;He等人,2016)。受NLP成功的启发,多项工作尝试将类似CNN的架构与自注意力相结合(Wang等人,2018;Carion等人,2020),有些则完全取代了卷积(Ramachandran等人,2019;Wang等人,2020a)。尽管后一类模型在理论上具有效率,但由于使用了专门的注意力模式,尚未在现代硬件加速器上实现有效扩展。因此,在大规模图像识别方面,经典的ResNet类架构仍然是最先进的(Mahajan等人,2018;Xie等人,2020;Kolesnikov等人,2020)。

受NLP中Transformer扩展成功的启发,我们尝试将标准Transformer直接应用于图像,尽可能少地进行修改。为此,我们将图像分割成块,并将这些块的线性嵌入序列作为Transformer的输入。图像块的处理方式与NLP应用中的标记(单词)相同。我们以监督的方式训练模型进行图像分类。

当在中等规模的数据集(如ImageNet)上进行训练且不使用强正则化时,这些模型的准确率比同等规模的ResNet低几个百分点。这种看似令人沮丧的结果是可以预料的:与卷积神经网络(CNN)固有的归纳偏置(如平移等变性和局部性)相比,Transformer缺乏其中一些归纳偏置,因此在数据量不足的情况下训练时泛化能力不强。

然而,如果模型在更大的数据集(1400万至3亿张图像)上进行训练,情况就会发生变化。我们发现,大规模训练胜过了归纳偏置。我们的视觉Transformer(ViT)在足够规模的预训练后,转移到数据量较少的任务上时,取得了出色的结果。当在公开的ImageNet-21k数据集或内部的JFT-300M数据集上进行预训练时,ViT在多个图像识别基准测试中接近或超越了最先进的水平。特别是,最佳模型在ImageNet上的准确率达到88.55%,在ImageNet-ReaL上的准确率达到90.72%,在CIFAR-100上的准确率达到94.55%,在包含19个任务的VTAB套件上的准确率达到77.63%。

2 相关工作

Transformer由Vaswani等人(2017)提出,用于机器翻译,并已成为许多自然语言处理(NLP)任务的最先进方法。基于Transformer的大型模型通常首先在大型语料库上进行预训练,然后再针对手头任务进行微调:BERT(Devlin等人,2019)使用去噪自监督预训练任务,而GPT系列工作则使用语言建模作为其预训练任务(Radford等人,2018;2019;Brown等人,2020)。

将自注意力机制直接应用于图像会要求每个像素都关注其他所有像素。由于像素数量的平方级成本,这种方法无法扩展到实际的输入大小。因此,为了在图像处理中应用Transformer,过去已经尝试了几种近似方法。Parmar等人(2018)仅在每个查询像素的局部邻域内应用自注意力,而不是全局应用。这样的局部多头点积自注意力块可以完全替代卷积(Hu等人,2019;Ramachandran等人,2019;Zhao等人,2020)。在另一项工作中,Sparse Transformer(Child等人,2019)对全局自注意力进行了可扩展的近似,以便能够应用于图像。扩展注意力的另一种方法是在不同大小的块中应用它(Weissenborn等人,2019),在极端情况下仅沿单个轴应用(Ho等人,2019;Wang等人,2020a)。许多这种专门的注意力架构在计算机视觉任务上展示了有希望的结果,但需要在硬件加速器上高效实现复杂的工程。

与我们的工作最相关的是Cordonnier等人(2020)的模型,该模型从输入图像中提取大小为2×2的块,并在其上应用完整的自注意力。这个模型与ViT非常相似,但我们的工作进一步证明了大规模预训练使普通Transformer能够与最先进的卷积神经网络(CNN)竞争(甚至优于它们)。此外,Cordonnier等人(2020)使用2×2像素的小块大小,这使得该模型仅适用于小分辨率图像,而我们也能处理中等分辨率的图像。

还有很多研究致力于将卷积神经网络(CNN)与各种形式的自注意力相结合,例如通过增强特征图来进行图像分类(Bello等人,2019),或者通

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值