概览
这篇论文的动机源于在计算机视觉领域设计计算高效的网络架构的持续需求。当前的视觉模型如卷积神经网络(CNNs)和视觉Transformer(ViTs)在处理大规模视觉任务时展现出良好的表现,但都存在各自的局限性。特别是,ViTs尽管在处理大规模数据上具有优势,但其自注意力机制的二次复杂度对高分辨率图像处理时的计算成本极高。因此,研究者希望通过引入新的架构来降低这种复杂度,并提高视觉任务的效率。
现有方法的不足:
- CNNs虽然在提取局部特征方面表现优秀,但在捕捉长距离依赖时能力不足。
- ViTs引入了自注意力机制,可以捕捉全局依赖,但自注意力的二次计算复杂度会带来显著的计算开销,尤其在处理高分辨率输入时。
- 尽管一些方法(如线性注意力)试图通过降低自注意力的复杂度来优化性能,但往往导致感受野的缩小,或者在不同任务中的性能下降。
拟解决的问题:
该论文旨在提出一种新的视觉主干网络架构(VMamba),通过引入基于状态空间模型(SSM)的模块来高效处理视觉数据,减少计算复杂度,并在保持模型性能的同时提高推理速度。
主要贡献:
- 提出了VMamba,这是一个基于SSM的视觉主干网络,能够在视觉表示学习中实现线性时间复杂度。
- 引入了2D选择扫描(SS2D)模块,使得选择性SSM能够有效地处理视觉数据,弥合一维扫描与二维视觉数据之间的鸿沟。
- 在多个视觉任务上展示了VMamba的优异性能,包括图像分类、目标检测和语义分割。尤其在处理大尺寸输入时,VMamba展现了线性增长的计算复杂度,具有显著的输入扩展性。
创新点:
- 2D选择扫描(SS2D)模块:这是VMamba的核心创新,通过沿着四个扫描路径遍历图像的方式,使得每个图像块可以通过扫描路径上计算出的压缩隐状态来获取上下文信息,从而降低了计算复杂度。
- 状态空间模型与视觉任务的结合:VMamba成功地将SSM应用于视觉任务,突破了SSM原本在自然语言处理中的一维顺序数据处理的局限,将其扩展到二维空间的视觉数据中。
- 线性计算复杂度的实现:相比于ViTs的二次复杂度,VMamba通过SS2D和SSM的结合,实现了视觉数据处理中的线性计算复杂度,大幅降低了计算成本,特别是在高分辨率图像处理任务中具有优势。
总的来说,VMamba通过创新性的架构设计,提出了一种高效且性能强大的视觉主干网络,在保持全局感受野的同时,大幅降低了计算开销。
2D选择扫描(SS2D)模块是否属于一种注意力机制?
2D选择扫描(SS2D)模块虽然在功能上与注意力机制有相似之处,但它并不是传统意义上的注意力机制。
在传统的自注意力机制中,每个输入(如图像中的每个patch)会计算与所有其他输入的相关性权重,通过全局注意力获取信息。这种操作的计算复杂度通常是二次的(与输入的