【第30篇】Vision Transformer

本文介绍了Vision Transformer(ViT),一个直接将Transformer应用于图像块序列的模型。研究表明,ViT在大规模数据预训练后在多个图像识别基准上超越了最先进的卷积神经网络,同时需要较少的计算资源。尽管在数据量不足时性能低于CNN,但大规模预训练弥补了这一差距,ViT在ImageNet、CIFAR-100等数据集上取得了优异的准确率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


image-20220323164916607
论文连接:https://arxiv.org/abs/2010.11929
GitHub·:https://github.com/google-research/vision_transformer

摘要

虽然 Transformer 架构已成为自然语言处理任务的事实标准,但其在计算机视觉中的应用仍然有限。 在视觉上,注意力要么与卷积网络结合使用,要么用于替换卷积网络的某些组件,同时保持其整体结构不变。 我们表明,这种对 CNN 的依赖是不必要的,直接应用于图像块序列的纯变换器可以在图像分类任务上表现得非常好。 当对大量数据进行预训练并转移到多个中型或小型图像识别基准(ImageNet、CIFAR-100、VTAB 等)时,与 state-of-the- 相比,Vision Transformer (ViT) 获得了出色的结果 艺术卷积网络,同时需要更少的计算资源来训练。

1 简介

基于自注意力的架构,尤其是 Transformers,已成为自然语言处理 (NLP) 的首选模型。主要方法是在大型文本语料库上进行预训练&#

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI浩

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值