第6周学习：Vision Transformer ；Swin Transformer；ConvNeXt

原创已于 2022-08-19 08:28:30 修改 · 723 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#transformer #学习 #深度学习

于 2022-08-18 17:56:44 首次发布

本文深入探讨了视觉Transformer网络，包括ViT的结构，如Embedding层、TransformerEncoder和MLPHead，以及其不同版本的性能对比。此外，介绍了SwinTransformer如何改进以降低计算量并提高准确性。最后，提到了ConvNeXt的网络设计，通过调整ResNet50结构以提升性能。这些模型的创新点和参数配置为深度学习研究提供了有价值的参考。

部署运行你感兴趣的模型镜像

Part1 视频学习

Vision Transformer

不同ViT版本的准确率

Vision Transformer网络架构

模型由三个模块组成：

Linear Projection of Flattened Patches(Embedding层)
Transformer Encoder(图右侧有给出更加详细的结构)
MLP Head（最终用于分类的层结构）

在Embedding层，对于标准的Transformer模块，要求输入的是token(向量)序列，即二维矩阵[num_ token, token_ dim]。

在代码实现中，直接通过一个卷积层来实现。以ViT-B/16为例，使用卷积核大小为16x16，stride为16，卷积核个数为768 ，通过卷积[224, 224, 3] -> [14, 14, 768]，然后把H以及W两个维度展平即可[14, 14, 768] -> [196, 768]，此时正好变成了一个二维矩阵。

在输入Transformer Encoder之前需要加上[class]token以及Position Embedding，都是可训练参数
拼接[class]token: Cat([1,768],[196,768])-> [197,768]
叠加Position Embedding:[197,768]->[197,768]。

Transformer Encoder层

Transformer Encoder就是重复堆叠Encoder Block L次，主要由以下部分组成：

Layer Norm 对每个token进行Norm处理
Multi-Head Attention
Dropout/DropPath，在原论文的代码中是直接使用的Dropout层
MLP Block，如图右侧所示，就是全连接+GELU激活函数+Dropout，需要注意的是第一个全连接层会把输入节点个数翻4倍[197, 768] -> [197, 3072]，第二个全连接层会还原回原节点个数[197, 3072] -> [197, 768]。

MLP Head层

注意：在Transformer Encoder前有个Dropout层，后有一个Layer Norm。训练ImageNet21K时是由Linear+tanh激活函数+Linear，但是迁移到lmageNet1K上或者你自己的数据上时，只有一个Linear。

ViT-B/16网络结构

ViT模型的详细参数

Hybrid混合模型特点

R50的卷积层采用的StdConv2d，不是Conv2d
将所有的BatchNorm层替换成GroupNorm层
把stage4g中的3个Block移至stage3g

ViT网络与其他网络的性能对比

Swin Transformer

网络整体架构

Swin Transformer与Vision Transformer对比，减少计算量，准确率更高。

网络整体框架

Patch Merging详解

特征矩阵的高和宽缩减为原来的一半，channel翻倍

W-MSA详解

目的：减少计算量

缺点：窗口之间无法进行信息交互

W-MSA模块计算量

SW-MSA详解

采用W-MSA模块时，只会在每个窗口内进行自注意力计算，所以窗口与窗口之间是无法进行信息传递的。为了解决这个问题，作者引入了Shifted Windows Multi-Head Self-Attention（SW-MSA）模块，即在第L+1层使用进行偏移的W-MSA。偏移后的窗口，比如对于第一行第2列的2x4的窗口，它能够使第L层的第一排的两个窗口信息进行交流。

目的：实现不同窗口之间的信息交互