真正的多模态学习？北航&小米新作MV2DFusion！

最新推荐文章于 2025-09-22 16:47:15 发布

原创

最新推荐文章于 2025-09-22 16:47:15 发布 · 2.2k 阅读

24 ·

CC 4.0 BY-SA版权

文章标签：

#学习

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心为大家分享北航&小米名为MV2DFusion的多模态检测框架。全面利用模态特定的目标语义，实现了全面的多模态检测！如果您有相关工作需要分享，请在文末联系我们！

自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→自动驾驶之心『BEV感知』技术交流群

论文作者 | Zitian Wang等

编辑 | 自动驾驶之心

内容速览

提出了一个名为MV2DFusion的多模态检测框架，全面利用模态特定的目标语义，实现了全面的多模态检测。在nuScenes和Argoverse 2数据集上验证了框架的有效性和效率。
该框架能够灵活地与任何模态检测器配合使用，可以根据部署环境选择最合适的检测模型，以实现更好的性能。
由于融合策略的稀疏性，框架在远程场景中提供了一个可行的解决方案。

论文信息

题目：MV2DFusion: Leveraging Modality-Specific Object Semantics for Multi-Modal 3D Detection
作者：Zitian Wang, Zehao Huang, Yulu Gao, Naiyan Wang, Si Liu
机构：北京航空航天大学人工智能研究所和小米汽车
原文链接：https://arxiv.org/pdf/2408.05945v1

摘要

随着自动驾驶车辆的发展，对稳定精确的三维目标检测系统的需求日益增长。尽管相机和激光雷达（LiDAR）传感器各自具有其独特的优势——例如相机能提供丰富的纹理信息，而激光雷达则能提供精确的三维空间数据——但过分依赖单一的传感模态常常会遇到性能上的局限。本文提出了一个名为MV2DFusion的多模态检测框架，它通过一种先进的基于查询的融合机制，整合了两种传感器的优势。该框架引入了图像查询生成器来对齐图像特有的属性，并通过点云查询生成器，有效地结合了不同模态下目标的特定语义，避免了对单一模态的偏好。基于这些宝贵的目标语义，能够实现基于稀疏表示的融合过程，确保在多样化的场景中都能进行高效且准确的目标检测。作者所提出的框架在灵活性方面表现出色，能够与任何基于图像和点云的检测器集成，显示出其适应性以及未来发展潜力。在nuScenes和Argoverse2数据集上的广泛评估结果表明，MV2DFusion在多模态3D检测方面达到了最先进的性能，特别是在长距离检测场景中表现突出。

文章简介

自动驾驶车辆的发展极大地推动了对三维目标检测技术的需求。不同的传感器，如相机和激光雷达（LiDAR），基于其成像原理的不同，能够捕获现实世界中物体的不同特征。这些不同模态的固有特性使它们能够从不同的视角区分物体。例如，物体在图像中以富含纹理的像素区域呈现，而在点云中则以一组3D点的形式呈现。近年来，无论是基于相机的检测还是基于激光雷达的检测，都取得了显著的进展。然而，依赖单一传感模态的检测方法存在其固有的局限性。图像缺乏深度信息，无法指示物体的三维位置；而点云则缺少丰富的语义信息，且在捕捉远距离物体时因稀疏性而受限。

为了充分发挥两种传感模态的优势，研究者们提出了多模态融合方法，旨在结合两种模态的优势。当前的多模态融合方法主要分为两大类：特征级融合和提议级融合。特征级融合方法通过构建统一的特征空间，提取不同模态的特征以形成多模态特征体。例如，DeepFusion和AutoAlign利用点云特征查询图像特征，增强了点云特征的表示。BEVFusion将图像和点云特征转换到鸟瞰图（BEV）空间并进行融合。CMT不构建统一的特征空间，而是采用统一的注意力机制来聚合图像和点云特征。尽管特征级融合方法在目标识别和定位方面表现出直观的优势，但它们并未完全挖掘原始模态数据中嵌入的目标先验信息，有时甚至会在融合过程中损害强烈的模态特定语义信息。

与此相对，提议级融合方法利用特定于模态的提议，以最大限度地利用模态数据。例如，F-PointNet将检测到的图像边界框转换为截头锥体，以便从点云中提取物体。FSF和SparseFusion首先分别从图像和点云中生成提议，然后将它们统一为基于点云的实例表示，以进行多模态交互。然而，在这些方法中，表示往往会偏向于某一模态，如在FSF中相机提议主导了多模态融合过程，而在SparseFusion中，图像提议实质上被转换为与点云提议相同的表示。

为应对这些挑战，本文提出了一个名为MV2DFusion的多模态检测框架。该框架扩展了MV2D以纳入多模态检测，采用目标即查询的设计，便于自然地扩展到多模态环境。作者重新设计了图像查询生成器，使其更贴合图像模态的特性，引入了不确定性感知的图像查询，以保留图像中的目标语义，并继承了丰富的投影视图语义。通过引入点云查询生成器，作者还能够获取来自点云的目标语义，并将其与图像查询结合。然后，通过注意力机制进行融合过程，从而轻松地整合来自两种模态的信息。

本文提出的框架设计精心，充分利用了模态特定的目标语义，不受特定表示空间的限制。此外，它还允许集成任何类型的图像检测器和点云检测器，展示了框架的通用性和扩展性。得益于融合策略的稀疏性，作者的框架也适用于远程场景，避免了内存消耗和计算成本的二次增长。通过最小的修改，该框架还可以轻松地结合基于查询的方法，有效利用历史信息，如StreamPETR。作者在nuScenes和Argoverse 2等大规模三维检测基准上评估了作者提出的方法，实现了最先进的性能。

作者的贡献可以概括为：

提出了一个框架，全面利用模态特定的目标语义，实现了全面的多模态检测。在nuScenes和Argoverse 2数据集上验证了框架的有效性和效率。
该框架能够灵活地与任何模态检测器配合使用，可以根据部署环境选择最合适的检测模型，以实现更好的性能。
由于融合策略的稀疏性，框架在远程场景中提供了一个可行的解决方案。

总结来说，作者的方法在多模态三维检测方面取得了进步，提供了一个既稳健又多功能的解决方案，充分利用了相机和激光雷达两种传感模态的优势。

详解MV2DFusion

概述

图 1 展示了 MV2DFusion 的整体流程。该模型接收个多视角图像和点云数据作为输入，并通过独立的图像和点云网络主干提取各自的特征。利用这些特征，模型分别应用 2D 图像检测器和 3D 点云检测器，得到各自的检测结果。然后，基于这些特征和检测结果，生成图像查询和点云查询，这些查询随后输入到融合解码器中。在解码器中，查询会整合两种模态的信息，进而生成 3D 预测结果。以下各节将详细描述每个部分的详细信息和设计原则。

图1. 提出的MV2DFusion框架结构。该模型接收多视图图像和点云作为输入，通过独立的图像和点云主干网络提取模态特征。同时，应用基于图像的2D检测器和基于点云的3D检测器于这些特征上，得到各自的检测结果。然后，根据模态特征和检测结果，由各自的查询生成器生成图像查询和点云查询。最终，这些查询和特征输入到融合解码器中，在查询更新后整合两种模态的信息，形成3D预测。