IROS 2025｜高精地图抗干扰新突破！新框架RoboMap在13类传感器损坏下稳居SOTA！

最新推荐文章于 2025-12-18 10:43:11 发布

原创最新推荐文章于 2025-12-18 10:43:11 发布 · 1.1k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#自动驾驶 #高精地图

部署运行你感兴趣的模型镜像

导读：

高精地图构建是自动驾驶中的一项关键任务。当前的研究工作往往着重于提高高精地图的精度，而忽略了对于其在恶劣天气或者传感器故障等情况下的鲁棒性研究。因此，本文针对该问题提出了三个关键组成部分（即数据增强、多模态融合模块和模态丢弃训练策略），在维持地图精度的同时显著提高了多模态融合方法的鲁棒性。

论文链接：https://arxiv.org/pdf/2507.01484

项目主页：RoboMap

高精（HD）地图构建方法对于提供精确且全面的静态环境信息是至关重要的，这些信息对自动驾驶系统非常关键。尽管相机-激光雷达融合技术通过结合这两种模态的数据已经展现出具有前景的结果，但是现有方法主要着重于提高模型精度，往往忽略了感知模型的鲁棒性，这是现实世界应用的一个关键指标。本文探索了提高用于高精地图构建的多模态融合方法的鲁棒性同时维持高精度的策略。本文提出了三个关键组成部分：数据增强、新的多模态融合模块和模态丢弃训练策略。这些组成部分在包含13种多传感器损坏的具有挑战性的数据集上进行评估。实验结果表明，本文所提出的模块显著提高了基线方法的鲁棒性。此外，本文方法在nuScenes数据集的验证集上实现了最先进的性能。本文研究结果为开发更鲁棒、更可靠的高精地图构建模型提供了有价值的见解，提高了其在现实世界自动驾驶场景中的适用性。

高精（HD）地图构建是自动驾驶系统的一项关键任务，它提供了丰富的语义和几何道路信息，这些信息对于定位、感知和路径规划至关重要。高精地图捕获了车道边界和道路标记等关键细节信息，这些细节信息对于自动驾驶汽车的精确运行非常重要。虽然大多数现有研究都着重于提高高精地图构建的精度，但是多模态融合方法（结合来自相机和激光雷达等互补传感器的数据）通过利用多模态的优势，展现出了有前景的结果。

然而，在现实世界自动驾驶场景中，感知系统必须在多样化且往往具有挑战性的条件下运行。这些条件包括恶劣天气（例如，雪、雾）引起的传感器损坏、传感器故障（例如，相机崩溃、激光雷达误对齐）和外部干扰，所有这些均会显著降低模型性能。尽管存在这些挑战，但是高精地图构建模型的鲁棒性（定义为其在这种损坏下维持性能的能力）在先前的研究中基本上被忽略了。这种忽略在确保自动驾驶系统的可靠性和安全性方面带来了重大隐患。

为了解决这一隐患，本文研究了用于高精地图构建的多模态融合方法的鲁棒性，同时保持了高精度。具体而言，本文的目标是回答两个关键问题：1）高精地图构建模型在各种传感器损坏下的表现如何？2）哪些策略可以在不影响精度的情况下提高其鲁棒性？为了实现这一目标，本文提出了三个关键组成部分：数据增强、多模态融合模块和训练策略。这些组件的目标是提高高精地图构建模型对于13种多传感器损坏的适应性，包括单源和多源干扰，如图1所示。

图1｜多传感器损坏数据集的概览

本文在多传感器损坏数据集上评估了所提出的方法，并且对其与基线方法进行基准测试，以比较它们的性能。实验结果表明，所提出的组成部分显著提高了高精地图构建模型的鲁棒性，同时在nuScenes数据集的验证集上实现了最先进的性能。这些结果为提高高精地图构建模型的鲁棒性和可靠性提供了有价值的见解，提高了其在现实世界自动驾驶系统中的适用性。总之，本文的贡献为如下三方面：

1）综合的鲁棒性基准测试：本文使用包含13种类型多传感器损坏的数据集对多模态高精地图构建方法进行系统性评估。这提供了对具有挑战性的条件下模型性能的全面分析；

2）增强框架：本文提出了三个关键组成部分：数据增强、新的多模态融合模块和模态丢弃训练策略，在不牺牲精度的情况下，显著提高了多模态融合方法的鲁棒性；

3）最先进的性能：本文方法不仅增强了模型对传感器损坏的适应性，还在nuScenes数据集的验证集上实现了最先进的结果，证明了其在现实世界自动驾驶场景中的有效性。

数据集构建：本文研究了基于相机-激光雷达融合的高精地图构建任务在各种多传感器损坏情况下的鲁棒性。本文针对每种类型的传感器损坏考虑了三个损坏严重程度级别：简单、中等、困难。多传感器损坏数据集是通过破坏nuScenes数据集的验证集来构建的，该数据集在最近的高精地图构建研究中被广泛采用。多传感器损坏数据集包括13种类型的合成相机-激光雷达损坏组合，单独或者同时干扰相机和激光雷达输入，如图1所示。这些损坏分为三类：仅相机、仅激光雷达和多模态损坏，覆盖了各种现实世界场景。具体如下：

1）仅相机损坏：本文使用干净的激光雷达数据设计了两种类型的损坏，以模拟相机系统受损而激光雷达仍能正常工作的情况。这两种损坏包括：

（1）相机崩溃：模拟相机系统完全故障，没有可用的视觉数据。这测试了模型依赖于激光雷达输入的能力；

（2）帧丢失：模拟间歇性相机故障，即某些帧丢弃或者缺失。这评估了模型对视觉数据的鲁棒性。

2）仅激光雷达损坏：本文使用干净的相机数据创建了两种类型的损坏，以模拟激光雷达系统在相机保持运行的情况下受到损坏的情况。这两种损坏包括：

（1）串扰：模拟激光雷达传感器之间的干扰，其中一个传感器的信号会影响另一个传感器，从而导致获得带有噪声或者不准确的点云数据；

（2）跨传感器：模拟激光雷达传感器之间的误对齐或者标定误差，从而导致获得不一致或者畸变的点云表示。

3）多模态损坏：本文提出了9种干扰相机和激光雷达输入的损坏类型，以模拟两种模态均受到影响的现实世界场景。这些损坏包括：

（1）上述故障类型（例如，同时发生相机崩溃和串扰）的4种组合，测试模型对传感器故障的适应性；

（2）5种额外的损坏：

a）雾：模拟由于浓雾导致的相机图像和激光雷达点云的能见度降低情况；

b）雪：模拟降雪的影响，这会导致相机图像模糊和激光雷达信号杂乱；

c）运动模糊：表示车辆快速运动导致的相机图像模糊和激光雷达数据畸变情况；

d）空间误对齐：模拟由于标定误差或者物理偏移导致的相机和激光雷达数据之间的误对齐情况；

e）时间误对齐：模拟相机和激光雷达数据之间的时间差异情况，其中模态的输入不同步。

通过该数据集，本文对多模态高精地图构建方法的鲁棒性进行了系统性评估，提供了对不利条件下模型性能的全面分析。

鲁棒性评估指标：为了评估高精地图构建方法在多模态损坏场景下的鲁棒性，本文引入了两项评估指标：

1）适应性得分（RS）：本文将RS定义为相对鲁棒性指标，用于衡量模型在损坏数据集上评估时可以保留多少准确性，其计算方法如下：

$RS_i = \frac{\sum_{l=1}^3 Acc_{i,l}}{3 \times Acc^{clean}}, mRS = \frac{1}{N} \sum^N_{i = 1}RS_i$ （1）

其中， $Acc_{i,l}$ 表示严重等级 $l$ 和损坏类型 $i$ 上的任务特定准确性得分，其中NDS(NuScenes Detection Score)用于3D目标检测, mAP (mean Average Precision)用于高精地图构建。$N$为损坏类型的总数量， $Acc^{clean}$ 表示在“干净的”评估集上的准确性得分。mRS (mean Resilience Score)表示平均适应性得分, 提供了模型在所有类型损坏上的鲁棒性的总体衡量标准。

2）相对适应性得分 (RRS)：本文将 RRS 定义为比较候选模型的相对鲁棒性与基线模型的关键指标，mRRS 定义为表示相对适应性得分的总体指标。RRS 和mRRS 得分的计算方法如下：

$RRS_i = \frac{\sum_{l=1}^3 Acc_{i,l}}{\sum_{l=1}^3 Acc_{i,l}^{base}} - 1, mRRS = \frac{1}{N} \sum^N_{i = 1}RRS_i$ （2）

准备工作：为了清楚起见，本文首先介绍贯穿全文的术语和定义。本文的目标是设计一个鲁棒的多模态高精地图构建框架，它集成了数据增强、新的多模态融合模块和有效的训练策略，以显著提高多模态融合方法的鲁棒性，如图2所示。

图2｜RoboMap框架概览

形式上，令 $\mathcal{X}=\{Camera, LiDAR\}$ 表示输入集, 其中 $Camera \in \mathbb{R}^{B \times N_{cam} \times H_{cam} \times W_{cam} \times 3}$ 表示透视图中的多视图 RGB 相机图像 (其中， $B$ 、 $N_{cam}$ 、 $H_{cam}$ 和 $W_{cam}$ 分别表示批量大小、相机数量、图像高度和图像宽度)， $LiDAR \in \mathbb{R}^{B \times P \times 5}$ 表示激光雷达点云 (其中包含 $P$ 个点，每个点包含 3D 坐标、反射率和光束索引)。

数据增强：为了增强对传感器损坏的鲁棒性, 本文对相机和激光雷达输入均采用了数据增强策略。对于相机数据, 本文利用 GridMask, 它通过应用与图像大小相同的网格掩膜 (二进制值为 0 或 1) 来随机丢弃图像信息。对于激光雷达数据, 本文应用了一种丢弃策略, 它从点云中随机删除点, 以模拟传感器噪声并且提高模型的适应性。

在数据增强后, 本文对数据进行如下处理: 对于相机数据, 本文利用 ResNet50 作为主干网络来提取多视图特征, 并且应用 GTK 作为 2D 到 BEV 的转换模块, 该模块将提取的特征转换到鸟瞰图 (BEV) 空间中，得到 BEV 特征 $F_{Camera}^{BEV} \in \mathbb{R}^{B \times H \times W \times C}$ ，其中 $H$ 、 $W$ 和 $C$ 分别表示图像高度、宽度和通道数量。对于激光雷达数据，本文采用 SECOND 方法进行体素化和稀疏激光雷达编码。激光雷达特征通过展平操作投影到 BEV 空间中, 得到统一的激光雷达 BEV 表示 $F_{LiDAR}^{BEV} \in \mathbb{R}^{B \times H \times W \times C}$ 。

跨模态交互转换：现有方法将感知特征转换为共享的 BEV 表示, 并且将其融合以构建多模态 BEV 特征。然而, 由于存在模态差异, 激光雷达和相机特征在语义上仍然不一致。为了解决这个问题, 本文提出了一种跨模态交互 Transformer (CIT) 模块, 它利用自注意力, 通过来自一种模态的见解来丰富另一种模态。

首先，从相机 ( $F_{Camera}^{BEV} \in \mathbb{R}^{B \times H \times W \times C}$ ) 和激光雷达 ( $F_{LiDAR}^{BEV} \in \mathbb{R}^{B \times H \times W \times C}$ ) 传感器的 BEV 特征开始。 BEV 标记 $T_{Camera}^{BEV} \in \mathbb{R}^{H W \times C}$ 和 $T_{LiDAR}^{BEV} \in \mathbb{R}^{H W \times C}$ 通过展平每个 BEV 特征并且排列矩阵的顺序来获得。然后，连接每个模态的标记并且加入可学习的位置嵌入，这是一个维度为 $2HW \times C$ 的可训练参数，为Transformer创建输入 BEV 标记 $\mathbf{T}^{in} \in \mathbb{R}^{2HW \times C}$ 。该位置嵌入允许模型在训练过程中区分不同标记之间的空间信息。第三, 输入标记 $\mathbf{T}^{in}$ 经过线性投影来计算一组查询、键和值 ( $\mathbf{Q}$ ， $\mathbf{K}$ 和 $\mathbf{V}$ )。第四, 自注意力层使用 $\mathbf{Q}$ 和 $\mathbf{K}$ 之间缩放的点积来计算注意力权重, 然后将这些权重乘以值来生成优化的输出结果：

$\mathbf Z = Attention(Q, K ,V) = softmax(\frac{QK^T}{\sqrt{ D_k}}) V$ （3）
其中， $\sqrt{D_k}$ 为缩放因子。为了捕捉各种表示子空间和位置的复杂关系，本文采用了多头注意力机制：

$\hat{\mathbf Z} = MultiHead(Q, K, V) = Concat(\mathbf Z_1, ..., \mathbf Z_h) \mathbf W^O$ （4）

下标 $h$ 表示头的数量， $\mathbf{W}^O$ 表示 $\text{Concat}(\mathbf{Z}_1, ..., \mathbf{Z}_h)$ 的投影矩阵。最后，transformer 使用非线性变换来计算输出特征 $\mathbf{T}^{out}$ ，它与输入特征 $\mathbf{T}^{in}$ 的形状相同：

$T^{out} = MLP(\hat {\mathbf Z}) + T^{in}$ （5）

输出特征 $\mathbf{T}^{out}$ 被转换为 $\mathbf{F}_{Camera}^{BEV}$ 和 $\mathbf{F}_{LiDAR}^{BEV}$ 以进行进一步特征融合。本文利用动态融合模块来聚合多模态 BEV 特征输入 $\mathbf{F}_{Camera}^{BEV}$ 和 $\mathbf{F}_{LiDAR}^{BEV}$ ，从而生成聚合的特征 $\mathbf{F}_{fused}$ 。输出的融合特征 $\mathbf{F}_{fused}$ 将被用于高精地图构建任务。

模态丢弃训练策略：为了在训练过程中模拟现实世界传感器故障情况, 本文采用一种模态丢弃策略，其中相机或者激光雷达的 BEV 特征 ( $\mathbf{\hat{F}}_{Camera}^{BEV}$ 或者 $\mathbf{\hat{F}}_{LiDAR}^{BEV}$ ) 通过概率 $p_{md}$ 被随机丢弃。当一个模态被丢弃时， $p_L$ 表示保留激光雷达输入的概率, 而 $p_C = 1 - p_L$ 表示保留相机输入的概率。因此，总体概率分布如下：保留两个传感器输入的概率为 $1 - p_{md}$ ，仅保留激光雷达输入的概率为 $p_{md} \cdot p_L$ ，仅保留相机输入的概率为 $p_{md} \cdot (1 - p_L)$ 。该策略通过随机丢弃模态提高了模型对于部分传感器故障的鲁棒性, 使其能够更好地适应可能发生传感器故障的现实世界场景。

5.1 实验设置

数据集：nuScenes数据集由自动驾驶汽车采集的1000个序列组成。每个样本都以2Hz的频率进行标注，其中包括捕获自车360°水平视野的六张相机图像。本文着重于三个关键的地图元素：人行横道、车道分隔线和道路边界，以确保公正评估。

评估指标：对于干净的数据，本文采用与先前的高精地图研究一致的指标。平均精度（AP）衡量地图构建的质量，而倒角距离（ $D_{Chamfer}$ ）量化预测与真值之间的对齐。为了评估模型的鲁棒性，本文引入了适应性得分（RS）和相对适应性得分（RRS），它们评估了模型在数据损坏或者传感器噪声下的性能，确保了在现实世界场景中的可靠性。

实现细节：本文的RoboMap框架在四个NVIDIA RTX A6000 GPUs上进行训练。本文使用开源仓库中的官方配置来重新训练两个最先进的基线模型MapTR和HIMap。所有实验均采用AdamW优化器，其中学习率为4.2×10−4。值得注意的是，RoboMap的核心组件（即数据增强、多模态融合模块和训练策略）被设计为简单而有效的即插即用技术，使其与现有的用于高精地图构建的相机-激光雷达融合流程相兼容。

5.2与最先进方法的比较

在相同的设置和数据划分下，本文将提出的RoboMap模型与几种最先进的方法进行了比较，包括HDMapNet、VectorMapNet、MBFusion、GeMap、MgMap、MapTR、MapTRv2和HIMap。表格1总结了RoboMap和所有基线在nuScenes数据集上的整体性能。

表格1｜与最先进方法在nuScenes验证集上的比较结果

实验结果突出了几个关键发现：多模态方法始终优于单模态方法，这证明了利用相机和激光雷达传感器的互补信息进行高精地图构建的重要性。如表格1所示，RoboMap相比原始模型具有显著改进，RoboMap（MapTR）在nuScenes数据集上比原始相机-激光雷达融合MapTR模型高出9 mAP，而RoboMap（HIMap）比先前最先进的HIMap融合模型高出2.7 mAP，为矢量化地图重建建立了新的基准。RoboMap的卓越性能可归功于其三个核心组成部分，即数据增强、多模态融合模块和高级训练策略，它们共同提高了鲁棒性和精度。总之，RoboMap相比于现有的多模态方法具有显著的优势，这突出了其在高精地图构建任务中的有效性。

5.3消融研究

为了系统性地评估本文所提出的RoboMap中每个组成部分的有效性，通过在基线模型中逐步加入单独的策略来进行消融研究，结果如图3所示。

图3｜使用干净的数据分析不同模块对高精地图构建任务的影响

具体而言，本文设计了以下消融模型：（1）RoboMap（没有融合），它将跨模态交互转换融合模块集成到原始基线模型中；（2）RoboMap（有数据增强），将图像和激光雷达数据增强策略加入原始基线模型中；（3）RoboMap（有丢弃策略），将模态丢弃训练策略应用于原始基线模型中；（4）RoboMap（有全部的组成部分），它结合了所有三个关键组成部分（即数据增强、多模态融合模块和训练策略），并且加入到基线模型中。

消融研究结果表明，每个组成部分均显著提高了基线模型的性能。具体而言，在nuScenes数据集上，RoboMap（有融合）、RoboMap（有数据增强）和RoboMap（有丢弃策略）的表现优于基线MapTR模型，分别实现了3.3、4.5和1.6 mAP的提高。同样，这些变体超越了最先进的HIMap模型，分别提高了0.85、1.7和0.4 mAP。这些实验结果验证了每种策略在提高模型性能方面的有效性，这突出了RoboMap的鲁棒性和通用性。

5.4多传感器损坏的鲁棒性

为了探索增强鲁棒性的策略（例如数据增强、多模态融合和模态丢弃训练），本文评估了主流的MapTR和最先进的HIMap模型。表格2和表格3展现了其适应性得分。

表格2｜原始MapTR模型及其变体的RSc和mRS得分

表格3｜原始HIMap模型及其变体的RSc和mRS得分

图4和图5展示了其相对适应性得分。

图4｜相对鲁棒性可视化。使用原始MapTR作为基线来计算相对适应性评分（RRS）

图5｜相对鲁棒性可视化。使用原始HIMap作为基线来计算相对适应性评分（RRS）

本文分析揭示了两个关键见解。首先，尽管相机-激光雷达融合方法通过结合多模态数据展现出有前景的性能，但是很多方法都假设传感器是完全可用的，这导致传感器损坏或者丢失时这些方法的鲁棒性较低。其次，尽管单独的策略并不能在所有多传感器损坏场景中一直提高鲁棒性，但是将它们相结合可以显著提高模型的适应性。具体而言，与原始MapTR和HIMap模型相比，本文方法分别将mRS指标提高了9.55和14.3，这证明了这些策略在提高鲁棒性方面的有效性。

实验结果强调了解决多模态系统中传感器漏洞的必要性。尽管相机-激光雷达融合在理想条件下表现良好，但是它对完整传感器数据的依赖使其在数据不完整或者损坏的现实世界场景中容易失效。本文通过结合数据增强、多模态融合和模态丢弃训练，显著提高了鲁棒性。这些策略增强了MapTR和HIMap模型的适应性，并且为构建更鲁棒的多模态系统提供了框架。这些研究结果突显了有针对性增强在应对基于传感器的应用带来的现实挑战方面的巨大潜力。

本文提高了高精地图构建方法的鲁棒性，这对自动驾驶系统是至关重要的。本文提出了一种结合数据增强、多模态融合模块和创新的模态丢弃训练策略的综合框架。实验结果表明，本文方法在包含13种类型传感器损坏的数据集上显著提高了鲁棒性。此外，本文方法在nuScenes数据集的验证集上实现了最先进的性能。总体而言，本文模型为开发更可靠的高精地图技术提供了有价值的见解，有助于实现更安全、更有效的自动驾驶技术。

您可能感兴趣的与本文相关的镜像