杀疯了！Mamba+Transformer 组合在 CVPR-2025 疯狂收割顶会席位！！

ＡＩ学术工坊

已于 2025-03-12 14:12:37 修改

阅读量679

点赞数 10

分类专栏：整理类文章标签： transformer 深度学习人工智能

于 2025-03-12 14:09:32 首次发布

本文链接：https://blog.youkuaiyun.com/Malaai/article/details/146203576

版权

整理类专栏收录该内容

19 篇文章

订阅专栏

【导读】

在人工智能前沿研究中，【Mamba与Transformer】的融合是当下备受瞩目的焦点。

计算机视觉领域，英伟达团队研发的MambaVision成功入选顶级会议CVPR - 2025。其采用分层架构，前两阶段借CNN层快速提取高分辨率特征，后两阶段融合Mamba与Transformer模块Mamba模块经创新改造，将因果卷积替换为常规卷积并新增对称分支。这一设计使MambaVision在Top - 1精度和图像吞吐量上超越同类模型，实现新SOTA。

自然语言处理方面，腾讯发布的Hunyuan - TurboS作为首款超大型混合Transformer - Mamba MoE模型备受关注。它整合Mamba高效处理长序列及Transformer深度理解上下文的优势，解决传统Transformer长文本处理效率瓶颈，在训练优化及奖励系统上也有创新。与以往模型相比，二者创新性地融合Mamba与Transformer，在各自领域独树一帜。

目前该领域研究热度极高，成果众多。我整理了12篇论文能助力读者了解这一前沿趋势，为大家科研和论文写作提供有价值的参考。

【论文】MambaVision: A Hybrid Mamba-Transformer Vision Backbone

Top-1 accuracy vs. image throughput on ImageNet-1K.

1.研究方法

The architecture of hierarchical MambaVision models.

论文提出的MambaVision采用独特的分层架构作为理论方法，共4个阶段。前两个阶段借助基于CNN的层，在高分辨率输入下快速提取特征，其中CNN块遵循特定的残差块公式；后两个阶段集成MambaVision和Transformer模块。图像输入后先转换为重叠补丁并投影到嵌入空间，各阶段间利用批归一化的3×3 CNN层下采样以降低分辨率。微观架构上，重新设计Mamba模块，将因果卷积替换为常规卷积，新增无SSM的对称分支，两者输出连接后投影，同时采用通用多头自注意力机制，以此提升模型在视觉任务中的性能。

2.论文创新点

Architecture of MambaVision block

重新设计Mamba块：改进了原始Mamba架构，使其更适用于视觉任务，在精度和图像吞吐量上优于原始架构。
探索混合架构：系统研究了Mamba和Transformer块的集成模式，发现最后阶段融入自注意力块可显著提升捕捉全局上下文和长距离空间依赖的能力。
性能优势显著：MambaVision在ImageNet - 1K数据集上，实现了Top - 1准确率和图像吞吐量的SOTA帕累托前沿，超越了基于Mamba、CNN和ViT的模型。在下游任务，如目标检测、实例分割和语义分割中，也优于尺寸相当的骨干网络。

【腾讯Hunyuan-TurboS】首款超大型混合Transformer-Mamba MoE模型震撼发布

1.研究方法

在这里插入图片描述这款混

架构融合：融合Mamba与Transformer，Mamba降低长文本处理复杂度至O(n)，减少缓存占用，Transformer负责上下文理解，构建出兼具高效与强理解能力的混合架构，且在超大型MoE模型中无损应用Mamba 。
训练优化：引入慢思考集成提升数理推理能力，通过精细化指令调优增强模型与人类需求的契合度，针对英语训练以提升通用性能。
奖励升级：用规则评分、代码沙箱反馈及生成式奖励，保障输出质量，提升特定领域准确性，优化问答与创意任务表现。