题目:Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
《Swin Transformer: Hierarchical Vision Transformer using Shifted Windows》作为2021 ICCV最佳论文,屠榜了各大CV任务,性能优于DeiT、ViT和EfficientNet等主干网络,已经替代经典的CNN架构,成为了计算机视觉领域通用的backbone。
1.概述
Transformer应用到图像领域主要有两大挑战:
- 视觉实体变化大,在不同场景下视觉Transformer性能未必很好——多尺度问题
- 图像分辨率高,像素点多,Transformer基于全局自注意力的计算导致计算量较大——tokens序列长度问题
针对上述两个问题,我们提出了一种包含Shifted Window操作,具有层级设计的Swin Transformer。
:::warning
Shifted Window操作<