文献阅读(十):AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
- 出处:CoRR abs/2010.11929 (2020)
- Google Research
- 主要内容:随着,Transformer[51]在自然语言处理(NLP)领域取得成功,许多研究人员也在探索在CV中是否也可以应用Transformer。Transformer将图像分成patch并形成的linear embedding序列(ViT),替换原本NLP中的tokens作为输入来进行有监督的图像分类实验。
ABSTRACT
虽然Transformer架构已经成为自然语言处理任务的事实上的标准,但它在计算机视觉上的应用仍然有限。在视觉上,注意力不是与卷积网络结合使用,就是在保持卷积网络整体结构不变的同时,代替卷积网络的某些部分。==我们证明了对cnn的依赖是不必要的,直接应用于图像patches序列的纯transformer可以很好地执行图像分类任务。==在大量数据上进行预训练,并将其传输到多个中、小型图像识别基准(ImageNet、CIFAR-100、VTAB等),与最先进的卷积网络相比,视觉转换器(Vision Transformer, ViT)取得了优异的效果,而训练所需的计算资源则大大减少。
1 INTRODUCTION
基于自我注意的架构,特别是Transformers(Vaswani et al., 2017),已经成为自然语言处理(NLP)的选择模型。主要的方法是在一个大型文本语料库上进行预训练,然后在一个较小的特定于任务的数据集上进行微调(Devlin等人,2019)。由于Transformer
本文介绍了如何将Transformer直接应用于图像识别,打破对CNN的依赖。研究发现,经过大量数据预训练的视觉转换器(ViT)在多个图像识别基准上表现出色,与最先进的卷积网络相比,效果优异,且训练成本更低。尽管ViT在小数据集上可能不如CNN,但在大规模数据集上,其优势明显,证明了Transformer在视觉任务中的潜力。
订阅专栏 解锁全文
1784

被折叠的 条评论
为什么被折叠?



