Vision Transformer - VIT

mango1698

已于 2024-02-20 13:23:55 修改

阅读量963

点赞数 22

分类专栏： AI 文章标签： transformer 深度学习人工智能

于 2024-02-20 13:08:45 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_45682053/article/details/136187910

版权

AI 专栏收录该内容

38 篇文章

订阅专栏

该篇文章介绍了将传统CNN与Transformer相结合的Hybrid模型在图像识别中的应用，详细阐述了Embedding层、Encoder层、MLPHead层的工作原理，以及TransformerEncoder如何处理位置信息。研究还提到在不同数据集上调整模型结构的方法，如从ImageNet21K到ImageNet1k的迁移。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

论文：An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
网址：https://arxiv.org/abs/2010.11929

Hybrid - 传统CNN和Transformer混合模型

模型架构

输入一张图片，首先会将其分为一个一个patches，然后将每个patches输入到embedding层（Linear Projection of Flattened Patches）。通过Embedding层后，我们就会得到一个个向量，这里我们通常将向量称为Token。我们会在这一系列Token到最前面增加一个新的Token，专门用于分类的class token。这里的class token的维度和我们刚才得到的token的维度相同。此外，我们还需要加上关于位置的信息，position embedding，对应于上图中的0，1，2，3，….

将这一系列token加上class token以及位置参数输入到Transformer Encoder之中，Transformer Encoder对应的又是右图中的Encoder Block重复堆叠L次。然后将class token所对应的进行输出。

VIT