【图像识别】Swin Transformer

最新推荐文章于 2024-09-02 21:54:07 发布

原创

最新推荐文章于 2024-09-02 21:54:07 发布 · 1.6k 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#transformer #深度学习 #人工智能

一、引言

论文： Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
作者： Microsoft Research Asia
代码： Swin Transformer
特点： 提出滑动窗口自注意力 (Shifted Window based Self-Attention) 解决Vision Transformer输入高分辨率图像注意力模块计算复杂度高的问题。

二、框架

Swin Transformer的整体框架图如下：

可见，Swin Transformer主要包括Patch Partition+Linear Embedding、Swin Transformer Block、Patch Merging几个组件。每经历一个Stage特征图都会缩小2倍、通道数放大2倍，这与ResNet网络的特征尺度变化过程很类似。

Swin Transformer Block的最小单位为上图右侧两个连续的Block，两个Block的差别仅在于注意力模块是窗口多头自注意力 (W-MSA) 还是滑动窗口多头自注意力 (SW-MSA)。所以每个Stage中包含的Block数量都是2的整数倍。

2.1 Patch Partition+Linear Embedding

Patch Partition是要将图像拆分成多个 $4 * 4 * 3$ 大小的Patch（4*4是每个Patch包含的像素点数，3是原始图像通道数），如下图所示：

之后将每个Patch按行展平，于是每个Patch形成一个 $1 * 1 * 48$ 的像素点。 $48 = 4 * 4 * 3$ ，原本一个像素点通道数为3，一个Patch有 $4 * 4$ 个像素点，所以展平后一个Patch变成一个通道数为48的像素点。所有Patch展平后按原位置拼接则形成 $\frac{H}{4}*\frac{W}{4}*48$ 的特征图。

通过Linear Embedding（例如核为 $1 * 1$ 的2D卷积）将通道数从48映射到 $C$ （原文中 $C = 96$ ）。最后通过LayerNorm将所有通道数为 $C$ 的像素点归一化。

上图为一个Patch上16个像素点的Patch Partition+Linear Embedding过程（图中一个小方格代表一个有3个通道的像素点， $c=\frac{C}{3}$ ）。

事实上，Patch Partition+Linear Embedding就是要将图像尺寸从 $H * W * 3$ 转换为 $\frac{H}{4}*\frac{W}{4}*C$ 。 与Vision Transformer取Patch时采取的策略一致，Swin Transformer并没有分两步完成该操作，而是通过一个卷积核大小为 $4 * 4$ 、步长为4、输出通道数为96的2D卷积层进行特征提取，再通过LayerNorm对所有token进行归一化（一个token对应 $\frac{H}{4}*\frac{W}{4}*C$ 的特征图中的一个像素点）。