论文阅读笔记：Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

最新推荐文章于 2025-04-08 09:54:27 发布

塔_Tass

最新推荐文章于 2025-04-08 09:54:27 发布

阅读量1k

点赞数

文章标签： transformer 计算机视觉

本文链接：https://blog.youkuaiyun.com/weixin_44876302/article/details/120993110

版权

论文阅读笔记：Swin Transformer

摘要
1 简介
2 相关工作
3 方法论

读了，但是只能读一点，仅作涉猎

Author: Yue Cao et.al.
Translate from: arXiv:2103.14030v2
Cite as: Liu, Z., Lin, Y., Cao, Y., Hu, H., Wei, Y., Zhang, Z., Lin, S.C., & Guo, B. (2021). Swin Transformer: Hierarchical Vision Transformer using Shifted Windows. ArXiv, abs/2103.14030.
Open source: https://github. com/microsoft/Swin Transformer

摘要

本文提出了一种新的ViT，称为Swin Transformer，它可以作为CV领域的通用backbones。把Transformer从NLP用到CV的挑战来自于两个领域之间的差异，例如视觉对象的规模以及图像中像素的高分辨率。为了解决这些差异，我们提出了一种分层 (hierarchical) Transformer，它的表示是用移位窗口 (Shifted windows) 计算的。

移位窗口的设计限制将Self-attenion的计算限制在非重叠的局部窗口中，同时允许跨窗口的连接，从而提高了效率。
这种分层结构具有在不同尺度下建模的灵活性，并且相对于图像大小具有线性计算复杂度。

Swin Transformer的这些特性使其与广泛的视觉任务兼容，包括图像分类（ImageNet-1K），密集预测任务，目标检测（COCO）和语义分割（ADE20K）。它的性能超过了之前的最先进水平，这表明了基于ViT的模型作为视觉backbones的潜力。分层设计和移位窗口方法也证明对所有MLP体系结构都是有益的。

1 简介

计算机视觉中的建模一直由卷积神经网络（CNN）主导。CNN架构通过更大的规模、更广泛的连接和更复杂的卷积形式变得越来越强大。CNN已成为各种视觉任务的Backbones。

事实上，Shifted windows的思想就和CNN中Conv的计算方法很像

另一方面，自然语言处理（NLP）中网络体系结构的演变走了一条完全不同的道路，最流行的体系结构是Transformer。它是为序列建模 (sequence modeling) 和转换任务而设计的，它以关注数据中的long-range的依赖关系而著称。它在NLP领域的巨大成功促使研究人员研究它对CV的适应性，最近它在某些任务上展示了有希望的结果，特别是图像分类和联合视觉语言建模。

在本文中，我们试图扩展Transformer以便使其作为计算机视觉的通用backbones，就像CNN所做的那样。我们观察到，将Transformer从NLP迁移到CV领域的挑战可以通过两种模式之间的差异来解释。

其中一个差异涉及规模。与作为语言转换器处理基本元素的单词token不同，视觉元素在规模上可能有很大差异。在现有的基于Transformer的模型中，token都是固定比例的，这一属性不适合这些vision应用。
另一个区别是图像中像素的分辨率比文本中的单词高得多。存在许多视觉任务，例如需要在像素级进行密集预测的语义分割，这对于高分辨率图像是很困难的，因为Self-attention的计算复杂度是图像大小的二次方。

在这里插入图片描述
图1（a）Swin Transformer通过在更深的层中合并图像块（灰色分块）来构建分层的feature maps，并且由于只在每个局部窗口（红色分块）内计算Self-attention，因此对于输入图像大小具有线性计算复杂性。（b）相比之下，以前的ViT生成单一低分辨率的feature maps，并且由于计算全局自我注意，输入图像大小具有二次计算复杂性。

我们提出了一种通用的backbone，称为Swin-Transformer，它构造了层次化feature maps，并且具有与图像大小成线性关系的计算复杂度。如图1所示，Swin Transformer从小尺寸的patch开始，逐步合并更深层次的Transformer层中的相邻patch，构建层次表示。有了这些层次化feature maps，Swin Transformer模型可以方便地利用先进技术进行密集预测。线性计算复杂性是通过在分割图像的非重叠窗口内局部计算Self-attention来实现的。每个窗口中的patch数量是固定的，因此复杂性与图像大小成线性关系。Swin Transformer与以前基于Transformer的体系结构不同，后者生成单一分辨率的feature maps，并且具有二次方复杂度。
在这里插入图片描述

图2 一个用于计算Self-attention的shifted window方法的示例。在 $l$ 层（左），采用规则的window划分方案，并在每个窗口内计算Self-attention。在下一层 $l + 1$ （右）中，窗口分区被shifted，从而产生新的窗口。因此新窗口中的Self-attention计算跨越了先前窗口的边界，建立了它们之间的联系。

Swin Transformer的一个关键设计元素是在连续的shifted window分区，如图2所示。这种策略在考虑真实世界的时延（latency）方面也很有效：window中的所有query patch都共享相同的key集合，这有助于硬件访问内存。早期的基于滑动窗口的自我注意方法[33，50]由于不同query像素的key集合不同，在普通硬件上的延迟问题更严重。实验表明，shifted window方法比sliding window方法具有更低的延迟，但建模能力相似。