ICCV25! 上交&中科院MambaFusion: 首个SOTA Mamba多模态3D检测-优快云博客

本文链接：https://blog.youkuaiyun.com/CV_Autobot/article/details/149287387

点击下方卡片，关注“自动驾驶之心”公众号

今天自动驾驶之心为大家分享上交&中科院ICCV'25中稿的最新工作—MambaFusion！首个SOTA的纯Mamba多模态3D检测。如果您有相关工作需要分享，请在文末联系我们！

自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询

>>自动驾驶前沿信息获取→自动驾驶之心知识星球

论文作者 | Hanshi Wang等

编辑 | 自动驾驶之心

论文总结

ICCV 2025 中稿的最新工作！本文首次提出了使用纯 Mamba 模块实现高效密集全局融合，并在相机–LiDAR 多模态 3D 目标检测任务上达到SOTA性能。

现有的LiDAR-Camera多模态融合策略往往难以在计算效率、长程建模能力和完整场景信息保留之间取得平衡；受到状态空间模型和线性注意力的启发，本文尝试利用其线性计算复杂度和长程建模能力来解决这些挑战，但实验表明，简单采用高效线性方法反而因高度信息丢失导致多模态对齐偏差而性能退化。

为此，本文首先设计了一种高度保真 LiDAR 编码，通过在连续空间中对体素进行压缩，有效保留精确的高度信息，显著增强相机与 LiDAR 特征的对齐效果；随后提出了混合 Mamba 模块，利用这些丰富的高度特征同时进行局部和全局上下文学习。整合上述组件后，本方法在 nuScenes 验证集上取得了 75.0 NDS，不仅超越了多种依赖高分辨率输入的顶尖方案，而且在推理速度上也领先于大多数最新方法。

论文标题：Height-Fidelity Dense Global Fusion for Multi-modal 3D Object Detection
作者单位：中科院自动化研究所，上海交通大学，Anyverse Intelligence
论文链接：https://arxiv.org/abs/2507.04369
代码链接：https://github.com/AutoLab-SAI-SJTU/MambaFusion

总结来说，这篇文章的亮点以及未来可扩展方向如下：

高效融合架构：首次将纯 Mamba 模块应用于密集全局融合，兼顾计算效率与长程建模；
高度保真编码：通过连续空间体素压缩保留精确高度信息，有效缓解多模态对齐信息丢失；
混合 Mamba 模块：在局部与全局上下文学习中展现优异性能，推动多模态 3D 检测前沿；
未来方向：加入时序信息并将相关模块用于更多3D感知和理解任务。

引言

3D目标检测是现代自动驾驶的基础任务，为感知、预测和运动规划等下游模块提供关键的环境理解。随着驾驶场景规模和动态复杂度的不断提升，单一传感器已难以满足需求：LiDAR 能提供精确的空间和深度信息，而相机则捕捉丰富的纹理和颜色语义。二者优势互补，因此多传感器融合成为提升检测精度和鲁棒性的有效途径。

如图所示，现有相机–LiDAR 融合策略可按感知范围分为三类：

Dense Local Fusion：在 BEV 局部区域对齐融合 LiDAR 与图像特征，计算高效但忽略全局上下文（efficient but short-sighted）。
Sparse Global Fusion：通过自注意在目标候选框间交换信息，实现长程依赖，但舍弃非目标区域的场景细节（efficient and far-sighted, but un-omniscient）。
Quasi Dense Global Fusion：类似 Swin Transformer 的窗口移动兼顾局部与部分全局，但依然无法直接交互所有全局特征（efficient but short-sighted and un-omniscient）。

表中对比了三类框架的主要特点。由此引出关键问题：能否设计出既高效，又具长程感知且真正“全知”的融合框架？在回答这一问题前，我们剖析了现有方法的三大瓶颈：

计算效率受限：全局自注意力二次方复杂度难以满足实时要求；
高度信息丢失：BEV 压缩引入量化误差，破坏多模态对齐；
细节与长程难兼得：直接替换为线性注意力（如 Mamba）虽降算力，却因特征排布不当而性能退化。

为了克服上述局限，本文提出了一种全新的高效密集全局融合框架，核心组件包括：

图像平面统一空间：将连续空间体素特征投影至相机图像平面，保留几何细节；
高度保真 LiDAR 编码：在连续 3D 空间内进行体素压缩，最大限度保留精确高度信息；
Hybrid Mamba Block (HMB)：一种兼容多种线性注意力的混合模块，可在图像平面统一空间中同时捕获局部与全局上下文。

集成上述组件后，我们的方法在 nuScenes 验证集上取得了 75.0 NDS 的最优成绩，并相较于 IS-FUSION 实现了 1.5× 的加速。

本文主要贡献

提出 Hybrid Mamba Block：首个支持纯线性注意力的密集全局融合模块，实现效率与全局感知的有机统一。
设计高度保真 LiDAR 编码：通过连续空间体素压缩，显著提升多模态对齐的精确度。
验证纯线性融合可行性：首次证明仅依赖线性复杂度算子即可在Camera–LiDAR 3D目标检测中达到 SOTA 性能。

方法细节

混合 Mamba 块（Hybrid Mamba Block）由Local Mamba 和 Global Mamba两大子模块协同工作，以在保持高效性的同时兼顾局部细节和全局上下文。

首先，Local Mamba 会将整个特征图划分成若干不重叠的小区域（例如每块大小），并在每个区域内构建相对坐标系：对落在同一区域内的每个特征点，计算其在该区域内的二维偏移，然后将这些局部坐标与原始特征一起输入 Mamba。通过这种方式，Local Mamba 在每个小窗口内执行一次状态空间模型（SSM）更新，能够敏锐捕捉物体边缘、稠密纹理或小型障碍等细粒度信息；而且因为只在局部范围内计算，其计算量与区域大小成正比，极大地提升了效率。

接着，Global Mamba 利用 Hilbert 空间填充曲线将来源于 LiDAR 和相机的多模态特征“铺平成”一维序列。Hilbert 曲线天生具有保持空间邻近性的优点：在不丢失局部结构关系的前提下，将三维（或二维）坐标映射到一维索引。我们为每个特征点添加位置编码，拼接到原始特征向量中，再按 Hilbert 索引重排整个序列，并对这条序列执行双向 Mamba 更新。这样，每个位置都能直接“看到”整个场景的长程信息，实现跨模态、跨空间的全局融合。

最后，混合 Mamba 块允许两种模式的自由组合，在需要时，仅运行 Local Mamba 或 Global Mamba ；也可将二者输出拼接或加权求和，在统一坐标系下共同作用，进而为后续的检测头提供既具备丰富局部特征又包含全局上下文的多模态融合表示。这种灵活的设计，使得 Hybrid Mamba 块既能高效地处理大规模点云与图像数据，又能在复杂驾驶场景中保持卓越的感知能力。

在传统的 LiDAR 体素化过程中，每个体素仅用其中心坐标来表示，且在多次下采样时简单地对合并后体素的坐标取平均，导致高度信息不断丢失，进而在多模态对齐中引入投影误差、FP和尺度偏差。为此，我们提出了高度保真 LiDAR 编码：首先，在连续的三维空间中直接基于原始点云坐标利用 ScatterMean 计算每个体素的真实质心位置；接着，在后续各级下采样中，同样使用连续坐标而非离散网格对体素进行合并，以最大程度保留细粒度高度分辨率。此外，我们还针对 LION 主干网络在体素生成时通过在显著点周围单位位置生成新体素而可能引入的重叠和冲突问题，主动剔除那些与周围体素位置重叠的候选体素，确保最终保留的都是不重复、互不干扰的有效体素，从而显著提升了多模态融合的对齐精度和下游检测性能。

图中展示了高度信息丢失在多模态对齐过程中的负面影响，这些影响最终会降低检测的准确性和质量。

如图所示，框架首先从多视角图像和稀疏点云中分别提取视觉特征和点云特征，并通过“高度保真编码”策略最大限度保留点云的细粒度高度信息。

接着，模态对齐器（Modality Aligner）使两种模态的特征分布趋于一致，稳固后续融合。然后，我们沿两个路径分别将 LiDAR 特征投影到图像平面、将视觉特征投影到 BEV 空间，并在各自坐标系中重排后，通过“混合 Mamba 块”进行融合，最后由检测头在 BEV 上输出目标预测。

对于模型的整体框架，首先，将点云和图像模态的特征分别送入共享的混合 Mamba 块（HMB）以对齐它们的分布，类似于“归一化”层的作用。完成分布对齐后，我们在原始三维空间和 BEV 空间中分别进行融合：

原始三维空间融合：将体素特征投影到图像平面上，实现点云与视觉特征在像素级的融合；
BEV 空间融合：通过 Lift–Splat–Shoot（LSS）变换将图像特征映射到 BEV 空间，并与点云 BEV 特征进行融合，构建统一的多模态表示。

为了保证效率，我们对 BEV 特征进行下采样并仅保留关键信息，同时对点云特征进行选择性保留，最终为检测头提供既精炼又富含多模态上下文的信息表示。

实验效果

如表中所示，我们在未使用测试时增强或模型集成的情况下，于 nuScenes 验证集上进行了评估：相较于准稠密全局融合方法 UniTR ，Lite 模型在推理速度提升 10% 的同时，分别在 mAP 上提升了 1.1、在 NDS 上提升了 0.7；而 Base 模型在验证集上取得了 75.0 的 NDS，未使用时序建模的条件下，取得当前最具竞争力的性能（为保持简洁性，本文暂未使用多帧融合的方法或trick）。此外，与近期的SOTA算法 IS-Fusion 和 SparseLIF 相比，我们的方法推理速度分别提升了 50% 和 62%。总体来看，本方法在检测精度与计算效率之间实现了极佳的均衡。

如图所示，我们可视化了有效感受野（ERFs）以考察各方法对长程依赖的捕获能力。具体而言，我们随机选取真实框内的特征点，计算其 ERFs 并对所有体素位置取最大值后合并，发现基于窗口的 UniTR仅能捕获局部信息，难以覆盖大型目标和整体环境，且投影误差引入额外噪声；原版 Mamba 虽具备全局感受野，却在信息利用效率上有所欠缺；混合 Mamba 块显著增强了空间建模能力，但模态错配会使注意力偏向无关区域，而加入的高度保真编码（HFL）有效缓解了这种错配；在对比多种线性注意力机制时，Mamba 展现了最广的覆盖范围和对关键目标的聚焦能力，而 RWKV与 RetNet等线性注意力则伴有更多噪声且未能关注部分重要目标。

通过可视化对三种典型融合策略进行了分析，突出展示了它们的局限性及我们方法的改进。如图所示，稠密局部融合（BEVFusion）因感受野过于局限且图像特征投影到 BEV 时存在误差，导致同一目标被在多个 BEV 区域分散显示，产生误检；稀疏全局融合（SparseFusion）在背景信息对目标区分至关重要时表现不佳，背景丢失造成图像与 LiDAR 特征对齐失准，出现漏检或错检；类稠密全局融合（UniTR）同样难以捕捉依赖长程关系的目标，尤其当目标跨越单一窗口或需要背景区分时，受限的观测范围使类别判定变得困难，从而引发误检。相比之下，我们的方法通过真正的密集全局融合框架，成功克服了上述问题。

结论

在本文中，首次提出了一种用于多模态 3D 目标检测的稠密全局融合框架。核心组件包括高效的混合 Mamba 块和有效的高度保真 LiDAR 编码：前者能够高效地聚合全局信息，后者则实现了跨模态特征的更精准对齐。本文的方法在竞争激烈的 nuScenes 基准上取得了优异成绩，充分证明了其在真实场景中的有效性。分析实验进一步验证了所提方法的功效，并深入剖析了其性能提升的原因。我们希望此项工作能够激发多模态 3D 目标检测领域的更多研究，并鼓励在相关方向上探索 Mamba 的潜力。

自动驾驶之心

论文辅导来啦

知识星球交流社区

近4000人的交流社区，近300+自动驾驶公司与科研结构加入！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎加入。

独家专业课程

端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网：www.zdjszx.com他