Vision Transformer

最新推荐文章于 2024-07-22 16:34:27 发布

THE@JOKER

最新推荐文章于 2024-07-22 16:34:27 发布

阅读量1.6k

点赞数 5

分类专栏： Transformer

原文链接：https://blog.youkuaiyun.com/qq_37541097/article/details/118242600

版权

Transformer 专栏收录该内容

2 篇文章

订阅专栏

论文： An Image Is Worth 16x16 Words: Transformers For Image Recognition At Scale
论文下载：https://arxiv.org/abs/2010.11929
原论文源码：https://github.com/google-research/vision_transformer

文章目录

摘要
Vision Transformer
Hybrid模型
- ViT模型搭建参数

摘要

在这篇文章中，作者主要拿ResNet、ViT（纯Transformer模型）以及Hybrid（卷积和Transformer混合模型）三个模型进行比较。

Vision Transformer

在这里插入图片描述

Linear Projection of Flattened Patches(Embedding层)
Transformer Encoder(图右侧有给出更加详细的结构)
MLP Head（最终用于分类的层结构）

Embedding层

在这里插入图片描述

Transformer Encoder层

在这里插入图片描述

MLP Head层

在这里插入图片描述

Vision Transformer网络结构

以ViT-B/16为例
在这里插入图片描述

Hybrid模型

在这里插入图片描述下表是论文用来对比ViT，Resnet（和刚刚讲的一样，使用的卷积层和Norm层都进行了修改）以及Hybrid模型的效果。通过对比发现，在训练epoch较少时Hybrid优于ViT，但当epoch增大后ViT优于Hybrid。

ViT模型搭建参数

在论文的Table1中有给出三个模型（Base/ Large/ Huge）的参数，在源码中除了有Patch Size为16x16的外还有32x32的。其中的Layers就是Transformer Encoder中重复堆叠Encoder Block的次数，Hidden Size就是对应通过Embedding层后每个token的dim（向量的长度），MLP size是Transformer Encoder中MLP Block第一个全连接的节点个数（是Hidden Size的四倍），Heads代表Transformer中Multi-Head Attention的heads数。
在这里插入图片描述

参考大佬：https://blog.youkuaiyun.com/qq_37541097/article/details/118242600

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。