(十):ViT--TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

本文介绍了如何将Transformer直接应用于图像识别,打破对CNN的依赖。研究发现,经过大量数据预训练的视觉转换器(ViT)在多个图像识别基准上表现出色,与最先进的卷积网络相比,效果优异,且训练成本更低。尽管ViT在小数据集上可能不如CNN,但在大规模数据集上,其优势明显,证明了Transformer在视觉任务中的潜力。

  • 出处:CoRR abs/2010.11929 (2020)
  • Google Research
  • 主要内容:随着,Transformer[51]在自然语言处理(NLP)领域取得成功,许多研究人员也在探索在CV中是否也可以应用Transformer。Transformer将图像分成patch并形成的linear embedding序列(ViT),替换原本NLP中的tokens作为输入来进行有监督的图像分类实验。

ABSTRACT

虽然Transformer架构已经成为自然语言处理任务的事实上的标准,但它在计算机视觉上的应用仍然有限。在视觉上,注意力不是与卷积网络结合使用,就是在保持卷积网络整体结构不变的同时,代替卷积网络的某些部分。==我们证明了对cnn的依赖是不必要的,直接应用于图像patches序列的纯transformer可以很好地执行图像分类任务。==在大量数据上进行预训练,并将其传输到多个中、小型图像识别基准(ImageNet、CIFAR-100、VTAB等),与最先进的卷积网络相比,视觉转换器(Vision Transformer, ViT)取得了优异的效果,而训练所需的计算资源则大大减少。

1 INTRODUCTION

基于自我注意的架构,特别是Transformers(Vaswani et al., 2017),已经成为自然语言处理(NLP)的选择模型。主要的方法是在一个大型文本语料库上进行预训练,然后在一个较小的特定于任务的数据集上进行微调(Devlin等人,2019)。由于Transformer

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Laura_Wangzx

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值