【SwinTransformer】大杀四方的 Swin Transformer 详解及改进

莫余

已于 2023-02-15 22:19:04 修改

阅读量5.6k

点赞数 2

分类专栏：计算机视觉文章标签： transformer 深度学习人工智能

于 2022-07-09 21:33:37 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_44824148/article/details/123965142

版权

计算机视觉专栏收录该内容

43 篇文章

订阅专栏

本文解析了SwinTransformer的Backbone结构，包括Stage0至Stage4的逐步演变，详细介绍了Patch Merging操作和SwinTransformer Blocks的计算单元。特别关注了窗口自注意力到全局注意力的转变，以及掩码操作的改进。适合理解Swin Transformer在视觉任务中的关键组件。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

Swin Transformer

Swin Transformer

Shifted Window 窗口自注意力到全局自注意力，窗口建模到全局建模。

BackBone

在这里插入图片描述
上图为 Swin-Tiny的网络架构图。

Swin-T: C = 96, layer numbers = {2, 2, 6, 2}
Swin-S: C = 96, layer numbers ={2, 2, 18, 2}
Swin-B: C = 128, layer numbers ={2, 2, 18, 2}
Swin-L: C = 192, layer numbers ={2, 2, 18, 2}

Stage 0

Images：224 * 224 * 3 （H * W * 3）
Patch Partition： 56 * 56 * 48 （H/4 * W/4 * 48）

Stage 1

Linear Embedding：56 * 56 * 96 （H/4 * W/4 * C）。类似于卷积操作。

Swin Transformer Block * 2：3136 * 96。

Stage 2

Patch Merging：28 * 28 * 192 （H/8 * W/8 * 2C）。
Swin Transformer Block * 2：784 * 192。

Stage 3

Patch Merging：14 * 14 * 384 （H/16 * W/16 * 4C）。
Swin Transformer Block * 6：196 * 384 。

Stage 4

Patch Merging：7 * 7 * 768 （H/32 * W/32 * 8C）。
Swin Transformer Block * 2：49 * 768。

Patch Merging 操作

Swin Transformer Blocks 计算单元

进入LayerNorm(层归一化)，然后进行多头自注意力(W-MSA)，进行LayerNorm(层归一化)，进行MLP操作
进入LayerNorm(层归一化)，然后进行移动多头自注意力(SW-MSA)，进行LayerNorm(层归一化)，进行MLP操作

基于窗口自注意力计算复杂度推导

Multi-head Self-Attention模块（MSA）
Window Multi-head Self-Attention模块（W-MSA）

https://blog.youkuaiyun.com/qq_45588019/article/details/122599502
在这里插入图片描述

掩码操作

后续……

改进

测试中，后续更新……

评论 7

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

莫余 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。