Mamba凭借状态空间模型(SSM)的线性计算复杂度,在长序列建模领域具有不输Transformer的统治地位,而注意力机制的全局依赖感知进一步巩固了这种优势。近期,清华团队最新力作 MambaIRv2 将二者深度融合,在图像复原赛道实现了"线性效率-全局精度"双优。其创新性硬件感知扫描策略(HASS)将原始MambaIR的四向扫描压缩至单次遍历,通过动态门控注意力重加权机制,在保持97.3%像素采样完整性的同时,使DIV2K数据集上的计算能耗直降58%。
Mamba-注意力混合架构的技术突破呈现出多维度辐射。通过创新方案如时空建模革新、动态路由机制和异构计算适配,这类架构正在重塑医疗影像重建、卫星地图增强等关键技术,未来或将开创3D Mamba-注意力建模等新方向。
本文整理了【12篇】最新前沿研究,供同学们学习与参考,欢迎自取~
对资料感兴趣的可以 [丝 xin] 我~~
一、vGamba: Attentive State Space Bottleneck for efficient Long-range Dependencies in Visual Recognition
1. 方法
本文提出了vGamba,一种混合视觉骨干网络,结合了SSM和注意力机制,以提高效率和表现力。vGamba的核心是Gamba瓶颈块,包含Gamba单元、二维多头自注意力(MHSA)机制和门控融合模块,旨在有效表示特征。在分类、检测和分割任务上的广泛实验表明,vGamba在准确性和计算效率之间实现了优越的平衡,超越了多种现有模型。
2. 创新点
1)混合架构设计(SSM + 注意力机制) 本文提出的vGamba首次将状态空间模型(SSM)与多头自注意力(MHSA)结合,形成混合架构,兼顾全局建模能力与计算效率。
2)Gamba瓶颈块结构 提出Gamba瓶颈块作为核心模块,包含三个关键组件:
-
Gamba单元:基于SSM的二维全局状态空间建模,增强长距离依赖捕捉能力。
-
多头自注意力(MHSA):强化局部重要特征的动态聚焦。
-
门控融合模块:通过可学习的门控权重动态融合SSM与注意力的输出,实现自适应特征融合。
3)二维状态空间建模的视觉适配 传统SSM 主要面向一维序列,本文将其扩展至二维图像空间,提出适合视觉任务的二维状态空间建模方法,在图像的空间维度(H×W)上构建状态转移矩阵,捕捉空间长程依赖;结合卷积操作的局部性,提升对局部细节的敏感性。
二、Prompt-Guided Dual-Path UNet with Mamba for Medical Image Segmentation
1.方法
本文提出了一种名为PGM-UNet的提示引导CNN-Mamba双路径UNet架构。该方法引入了提示引导的残差Mamba模块,能够自适应地从原始输入数据中提取动态视觉提示,从而有效引导Mamba捕捉全局信息。设计了一个局部-全局信息融合网络,包括局部信息提取模块、提示引导的残差Mamba模块和多聚焦注意力融合模块,有效整合局部和全局信息。受Kolmogorov-Arnold网络(KANs)启发,开发了多尺度信息提取模块,以在不改变分辨率的情况下捕获更丰富的上下文信息。
ISIC-2017、ISIC-2018、DIAS和DRIVE等数据集上进行的广泛实验表明,所提出的方法在多个医学图像分割任务中显著优于现有的最先进方法。
2. 创新点
1) 提示引导的CNN-Mamba双路径架构 首次将CNN的局部特征提取能力与Mamba的全局长距离建模能力结合,构建双路径UNet架构,克服了传统单一路径模型的局限性。
2)动态视觉提示生成机制 提出提示引导的残差Mamba模块,通过自适应学习从原始输入中生成动态视觉提示,引导Mamba聚焦关键区域。
3) 局部-全局信息融合网络 设计多模块协同的融合网络,包括:
-
局部信息提取模块:通过深度可分离卷积捕获细节特征。
-
多聚焦注意力融合模块:使用多头注意力机制动态分配不同尺度特征的权重。
论文链接:[2503.19589] Prompt-Guided Dual-Path UNet with Mamba for Medical Image Segmentation
对资料感兴趣的可以 [丝 xin] 我~~