25年最好发论文的方向：Mamba+Transformer！

最新推荐文章于 2025-06-12 22:27:36 发布

AI科研技术派

最新推荐文章于 2025-06-12 22:27:36 发布

阅读量694

点赞数 16

文章标签： transformer 深度学习人工智能

本文链接：https://blog.youkuaiyun.com/2401_82426425/article/details/146568563

版权

25年Mamba+Transformer必将迎来大爆发！

这不，英文达前脚刚中稿CVPR25，提出的MambaVision模型，打破了精度/吞吐瓶颈；后脚又推出了基于该架构的大模型Nemotron-H，速度狂提300%；就在前几天，腾讯也推出了混元T1大模型；各大顶会也不乏其身影……

其热度可见一斑！主要在于：一方面，Mamba具有线性复杂度，Transformer能捕捉长期依赖关系，两者优势互补，显著提升模型在精度、吞吐量和长序列处理上的性能。而速度提升、成本降低，是AI大模型广泛应用的必经之路。这便给我们的论文创新提供了机会和空间。另一方面，这两者结合目前还处于早期发展阶段，还不算卷；同时也有不少优秀开源成果，改模型好操作！

为让大家能够紧跟领域前沿，早点发出自己的顶会，我给大家准备了12种创新思路和源码！

论文原文+开源代码需要的同学看文末

SST: Multi-Scale Hybrid Mamba-Transformer Experts for Long-Short RangeTime Series Forecasting

内容：本文提出了一种名SST的多尺度混合Mamba-Transformer专家模型，用于长短期时间序列预测。该模型通过将时间序列分解为长期的全局模式和短期的局部变化，并分别利用Mamba专家提取长期全局模式以及Local Window Transformer（LWT）专家捕捉短期局部变化，再通过长短期路由器动态整合两者的贡献，实现了在保持线性复杂度O(L)的同时，显著优于现有方法的预测性能，并在多个真实世界数据集上验证了其低内存占用和高效计算能力。

Binarized Mamba-Transformer for Lightweight Quad Bayer HybridEVS Demosaicing

内容：本文提出了一种名为BMTNet的轻量化二值神经网络，专门用于Quad Bayer HybridEVS（混合事件视觉传感器）RAW图像的去马赛克任务。该网络结合了Mamba和Swin Transformer架构的优势，通过二值化投影层大幅降低了计算复杂度，同时引入全局视觉信息以增强全局上下文感知能力。实验表明，BMTNet在多个数据集上实现了与全精度方法相当的性能，同时显著减少了参数数量和计算量，适合在资源受限的移动设备上部署。

MatIR: A Hybrid Mamba-Transformer Image Restoration Model

内容：本文提出了一种名为 MatIR 的混合 Mamba-Transformer 图像恢复模型，旨在结合 Mamba 的高效处理长序列数据能力和 Transformer 的强大上下文学习能力，以解决图像恢复任务（如超分辨率、去噪和去模糊）中的挑战。MatIR 通过交叉循环 Transformer 层和 Mamba 层的块来提取特征，并引入了图像修复状态空间（IRSS）模块、三角窗局部注意力（TWLA）块和通道全局注意力（CGA）块，以实现高效的长序列数据处理和高质量的图像恢复。实验结果表明，MatIR 在多个基准数据集上优于其他最新方法，同时在计算效率和内存管理方面表现出色。

VAMBA: Understanding Hour-Long Videos with Hybrid Mamba-Transformers

内容：本文提出了一种名为 VAMBA的混合 Mamba-Transformer 模型，用于高效处理长达数小时的视频输入。该模型通过结合 Mamba 的线性复杂度和 Transformer 的强大上下文学习能力，显著降低了计算成本和内存占用，同时在长视频理解任务上取得了优异的性能。具体而言，VAMBA 使用 Mamba-2 块处理视频帧，利用交叉注意力层更新文本信息，从而在保持性能的同时，将训练和推理阶段的 GPU 内存使用量减少超过 50%，并将每步训练速度提高近一倍。实验结果表明，VAMBA 在小时级视频理解基准测试 LVBench 上比之前的高效视频多模态模型准确率提高了 4.3%，并且在长、中、短视频理解任务上均表现出色。