第6周学习:Vision Transformer ;Swin Transformer;ConvNeXt

本文深入探讨了视觉Transformer网络,包括ViT的结构,如Embedding层、TransformerEncoder和MLPHead,以及其不同版本的性能对比。此外,介绍了SwinTransformer如何改进以降低计算量并提高准确性。最后,提到了ConvNeXt的网络设计,通过调整ResNet50结构以提升性能。这些模型的创新点和参数配置为深度学习研究提供了有价值的参考。
部署运行你感兴趣的模型镜像

Part1 视频学习

Vision Transformer

不同ViT版本的准确率

Vision Transformer网络架构

模型由三个模块组成:

  • Linear Projection of Flattened Patches(Embedding层)
  • Transformer Encoder(图右侧有给出更加详细的结构)
  • MLP Head(最终用于分类的层结构)

在Embedding层,对于标准的Transformer模块,要求输入的是token(向量)序列,即二维矩阵[num_ token, token_ dim]。

在代码实现中,直接通过一个卷积层来实现。以ViT-B/16为例,使用卷积核大小为16x16,stride为16,卷积核个数为768 ,通过卷积[224, 224, 3] -> [14, 14, 768],然后把H以及W两个维度展平即可[14, 14, 768] -> [196, 768],此时正好变成了一个二维矩阵。

在输入Transformer Encoder之前需要加上[class]token以及Position Embedding,都是可训练参数
拼接[class]token: Cat([1,768],[196,768])-> [197,768]
叠加Position Embedding:[197,768]->[197,768]。

Transformer Encoder层

Transformer Encoder就是重复堆叠Encoder Block L次,主要由以下部分组成:

  • Layer Norm 对每个token进行Norm处理
  • Multi-Head Attention
  • Dropout/DropPath,在原论文的代码中是直接使用的Dropout层
  • MLP Block,如图右侧所示,就是全连接+GELU激活函数+Dropout,需要注意的是第一个全连接层会把输入节点个数翻4倍[197, 768] -> [197, 3072],第二个全连接层会还原回原节点个数[197, 3072] -> [197, 768]。

MLP Head层

注意:在Transformer Encoder前有个Dropout层,后有一个Layer Norm。训练ImageNet21K时是由Linear+tanh激活函数+Linear,但是迁移到lmageNet1K上或者你自己的数据上时,只有一个Linear。

ViT-B/16网络结构

 ViT模型的详细参数

Hybrid混合模型特点

  • R50的卷积层采用的StdConv2d,不是Conv2d
  • 将所有的BatchNorm层替换成GroupNorm层
  • 把stage4g中的3个Block移至stage3g

ViT网络与其他网络的性能对比

Swin Transformer

网络整体架构

Swin Transformer与Vision Transformer对比,减少计算量,准确率更高。

 网络整体框架

Patch Merging详解

特征矩阵的高和宽缩减为原来的一半,channel翻倍

 W-MSA详解

目的:减少计算量

缺点:窗口之间无法进行信息交互

W-MSA模块计算量

SW-MSA详解

采用W-MSA模块时,只会在每个窗口内进行自注意力计算,所以窗口与窗口之间是无法进行信息传递的。为了解决这个问题,作者引入了Shifted Windows Multi-Head Self-Attention(SW-MSA)模块,即在第L+1层使用进行偏移的W-MSA。偏移后的窗口,比如对于第一行第2列的2x4的窗口,它能够使第L层的第一排的两个窗口信息进行交流。

目的:实现不同窗口之间的信息交互

划分window过程 

 注意:全部计算完后需要将数据挪回原来的位置上

 Relative Position Bias详解

相对位置编码主要是为了解决Self-Attention中的排列不变性的问题,即不同顺序输入的tokens会得到一样的结果。

 依次进行如下变换:

  Relative Position Bias table

模型详细配置参数 

ConvNeXt

ConvNeXt与Swin性能对比

网络设计:作者将ResNet50中的堆叠次数由(3,4,6,3)调整成(3,3,9,3),stem换成卷积核大小为4,步距为4的卷积层,增大宽度。

 Inverted bottleneck

在较小的模型上准确率由80.5%提升到了80.6%
在较大的模型上准确率由81.9%提升到82.6%

Large kerner size

 Macro designs

 不同网络结构准确率对比,准确率不断提升

 ConvNeXt-T结构图

每个stage都是由ConvNeXt Block组成

个人感想

经过6周的学习,了解了许多不同的网络结构,对深度学习这个领域有了更深入的探索,虽然有一些网络结构目前来说完全掌握还比较困难,但还是希望以后通过更加高效细致的方法来熟练运用它们,未来加油!

您可能感兴趣的与本文相关的镜像

Seed-Coder-8B-Base

Seed-Coder-8B-Base

文本生成
Seed-Coder

Seed-Coder是一个功能强大、透明、参数高效的 8B 级开源代码模型系列,包括基础变体、指导变体和推理变体,由字节团队开源

### Swin Transformer 论文精读:Hierarchical Vision Transformer Using Shifted Windows Swin Transformer 是一种基于视觉的分层 Transformer 模型,其核心创新在于通过 **Shifted Window-based Self-Attention** 实现了线性计算复杂度,同时能够生成多尺度特征表示。这种方法在图像分类、目标检测和语义分割等任务中取得了显著的性能提升 [^2]。 #### 核心架构概述 Swin Transformer 的整体结构分为多个阶段(Stage),每个阶段包含多个 Swin Transformer Block。这些块使用 **窗口化自注意力机制** 和 **移位窗口策略** 来实现高效计算并捕捉长距离依赖关系。 - **分层特征提取** 类似于传统卷积神经网络(如 ResNet),Swin Transformer 采用分层设计来逐步降低空间分辨率并增加通道维度。这种设计允许模型从局部到全局地构建特征表示。 - **窗口划分与移位窗口机制** 在每个 Swin Transformer Block 中,输入特征图被划分为不重叠的窗口,并在这些窗口内执行自注意力计算。为了增强跨窗口的信息交互,在下一个 Block 中对窗口进行移位操作(Shifted Windows)。这种方式既减少了计算量,又保持了模型对全局信息的感知能力 [^1]。 ```python # 窗口划分伪代码示例 def window_partition(x, window_size): B, H, W, C = x.shape # 将图像划分为多个窗口 x = tf.reshape(x, shape=[B, H // window_size, window_size, W // window_size, window_size, C]) windows = tf.transpose(x, perm=[0, 1, 3, 2, 4, 5]) return tf.reshape(windows, shape=[-1, window_size, window_size, C]) # 移位窗口伪代码 def shifted_window_attention(x, window_size, shift_size): B, H, W, C = x.shape # 对特征图进行滚动操作以实现窗口移位 x = tf.roll(x, shift=(-shift_size, -shift_size), axis=(1, 2)) return window_partition(x, window_size) ``` #### 自注意力机制优化 传统的 Vision Transformer(ViT)在整个图像上应用自注意力机制,导致计算复杂度为 $O(n^2)$,其中 $n$ 是图像块的数量。而 Swin Transformer 通过将注意力限制在局部窗口内,将复杂度降低到 $O(n)$,使其适用于高分辨率图像处理 [^4]。 此外,移位窗口机制确保了相邻窗口之间的信息流动,从而避免了局部注意力带来的信息隔离问题。这种设计使得 Swin Transformer 能够在保持计算效率的同时实现全局建模能力。 #### 实验结果与性能优势 Swin Transformer 在多个视觉任务中表现出色: - **ImageNet 分类任务**:Swin-Tiny、Swin-Small、Swin-Base 和 Swin-Large 四种变体均在 ImageNet-1K 上实现了优于其他 Transformer 主干网络的 Top-1 准确率。 - **COCO 目标检测**:在 COCO 数据集上,Swin Transformer 在 Faster R-CNN 框架下达到了 SOTA 性能,mAP 超过之前的最佳方法。 - **ADE20K 语义分割**:在 ADE20K 数据集上,Swin Transformer 作为编码器也取得了领先的 mIoU 指标 [^2]。 #### 消融实验分析 论文还进行了详细的消融研究,验证了以下几个关键组件的有效性: - **窗口大小的影响**:较大的窗口有助于捕捉更广泛的上下文,但会增加计算开销。 - **移位窗口的重要性**:实验证明,移位机制可以显著提升模型性能,尤其是在长距离依赖任务中。 - **不同层级的设计**:通过对比不同层级深度和通道配置,论文展示了如何平衡精度与效率 [^3]。 ---
评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值