经典网络—Twins-SVT:高效混合 Transformer
1. 引言
近年来,Transformer 逐渐成为计算机视觉(CV)领域的主流架构。然而,ViT(Vision Transformer)由于全局自注意力计算量大,难以直接应用于高分辨率图像。Twins-SVT(Twins: Spatially Separable Self-Attention Transformer)通过 全局+局部注意力 结合 CNN 结构,成功在降低计算复杂度的同时提升了性能。
2. Twins-SVT 简介
Twins-SVT 由论文 “Twins: Revisiting the Design of Spatial Attention in Vision Transformers” 提出,其核心创新包括:
- 使用两阶段注意力机制(局部注意力 + 全局注意力),减少计算成本。
- 分层设计(类似 ResNet),提高特征提取能力。
- 高效建模长距离依赖,适用于高分辨率图像。
3. Twins-SVT 关键技术
3.1 局部+全局注意力
Twins-SVT 采用 Spatially Separable Self-Attention(SVT) 机制,将计算划分为两步:
- 局部注意力(LSA):类似 CNN 卷积的局部窗口注意力,降低计算复杂度。
- 全

最低0.47元/天 解锁文章
998

被折叠的 条评论
为什么被折叠?



