论文地址:https://arxiv.org/pdf/2405.14343
论文源码:https://github.com/kkkls/EVSSM
一、研究背景
- 传统的卷积具有空间不变性和局部性,无法捕捉图像上空间变化的内容和非局部信息;
- Transformer能够通过计算token之间的注意力捕捉全局信息,但是具有O(
)的时间和空间复杂度,当处理高分辨率图像时这变得不可接受;
- 状态空间模型(SSM)广泛应用与自然语言处理,具有线性或近线性的计算复杂度,改善的SSM(Mamba)提出的选择性扫描机制能够捕捉相关的信息,同时忽略不相关的信息;
- 有的方法通过多方向扫描机制将SSM运用到视觉任务,但这大大增加了计算代价;
- 论文提出了高效视觉扫描块(EVS),通过几何变换(翻转、转置)在单方向扫描中捕获多方向信息,显著降低计算成本。
二、方法设计
1. 整体结构
2. EVS模块
- 几何变换:在每层EVS模块前交替应用转置或翻转,避免破坏图像空间结构。
-
频域前馈网络(EDFFN):在频域筛选高频信息,提升细节恢复能力,同时减少计算量。