ViT——nlp和cv进行了统一,使多模态成为可能

本文提出了一种纯Transformer架构的图像识别模型ViT,无需CNN,展示了在大规模数据集预训练后,其在图像分类任务上的优秀性能。ViT通过将图像切分为patch,结合位置编码,输入到Transformer Encoder中,经过学习,达到了与深度残差网络(Resnet)相当甚至更好的效果。预训练和多模态的应用前景被看好。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

题目:AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

image.png1.概述
之前的transformer在cv中应用,大部分是将CNN模型中部分替换成transformer block(整体网络结构不变)或者用transformer将不同网络连接起来,而本文提出:一个针对图像patch的纯的transformer可以很好地完成图像分类任务,无需CNN的参与,这无疑打通了nlp和cv的壁垒。除此之外,相比于相同效果的CNN网络,VIT只需更少的计算资源。
transformer之所以只应用于部分代替,原因是:需要每个token进行两两计算关系,其复杂度是O(n^2)
,如果使用逐像素输入,则无法承担这么大的计算量,故为了降低输入序列的长度,之前的做法有:(文中提及的处理序列太长问题的方法)

  • 对Feature Map进行transfomer,如 14×14的特征图也就是1×196的序列长度,可以承受。
  • Stand-Alone Attention(孤注意力):使用一个local window进行输入,再进行平滑。利用这种局部多头点积自注意力块完全替代卷积。
  • Sparse Transformer:采用可伸缩的全局自注意力近似,以便适用于图像。
  • Axial Attention(轴注意力):属于scale attention方法,是将其应用于不同大小的块中,在极端情况下仅沿个别轴。

注:《Efficient Transformers: A Survey》,对近两年来提出的高效率的Transformer做了

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值