论文阅读:VMamba: Visual State Space Model
abstract
卷积神经网络(CNNs)和ViTs是视觉表示学习的两个最受欢迎的基础模型。尽管CNNs在图像分辨率方面表现出显著的可扩展性,具有线性复杂度,但ViTs在拟合能力上超越了它们,尽管它们面临着二次方复杂度的挑战。仔细检查发现,ViTs通过整合全局感受野和动态权重实现了卓越的视觉建模性能。这一观察启发我们提出了一种新的架构,它继承了这些组件,同时提高了计算效率。为此,我们从最近引入的状态空间模型中汲取灵感,提出了视觉状态空间模型(VMamba),它在不牺牲全局感受野的情况下实现了线性复杂度。为了解决遇到的与方向敏感性相关的问题,我们引入了交叉扫描模块(CSM)来遍历空间域,并将任何非因果视觉图像转换为有序的块序列。
3. Method
3.1 Preliminaries
State Space Models
State Space Models (SSMs) 通常被视为线性时不变系统,它们将激励 x ( t ) ∈ R L x(t)\in\mathbb{R}^L x(t)∈RL映射到响应 y ( t ) ∈ R L y(t)\in\mathbb{R}^L y(t)∈RL。数学上,这些模型通常被表述为线性常微分方程(ODEs),公式如下:
h ′ ( t ) = A h ( t ) + B x ( t ) y ( t ) = C h ( t ) + D x ( t ) \begin{aligned}h^{\prime}(t)&=Ah(t)+Bx(t)\\y(t)&=Ch(t)+Dx(t)\end{aligned} h′(t)y(t)=Ah(t)+Bx(t)=Ch(t)+Dx(t)
其中,参数包括状态大小为 N N N的矩阵 A ∈ C N × N , B , C ∈ C N A\in \mathbb{C}^{N\times N},B, C\in\mathbb{C}^N A∈CN×N,B,C∈CN以及跳跃连接 D ∈ C 1 D\in\mathbb{C}^1 D∈