Abstract
在线高清(HD)地图已成为自动驾驶的首选方案,凭借其灵活的更新能力和较低的维护成本,逐渐超越了离线高清地图。然而,现有的在线高清地图模型将视觉传感器的参数嵌入训练过程中,导致在应用于不同参数的视觉传感器时泛化性能显著下降。受到逆透视映射(IPM)固有潜力的启发,IPM 可以在训练过程中解耦相机参数,我们设计了一个通用的地图生成框架——GenMapping。该框架基于三重协同架构,包括主分支和两个辅助分支。当通过 IPM 转换的粗糙路面图像伴随局部失真时,主分支在状态空间模型下学习鲁棒的全局特征。两个辅助分支分别为密集透视分支和稀疏先验分支。前者利用静态和移动物体之间的相关信息,后者则引入了 OpenStreetMap(OSM)的先验知识。我们设计了三重增强融合模块,协同整合三个分支中的空间特征。为了进一步提高泛化能力,我们采用了视图交叉地图学习(CVML)方案,实现了在公共空间内的联合学习。此外,还引入了双向数据增强(BiDA)模块,以减少对数据集的依赖性。大量实验结果表明,所提出的模型在语义映射和矢量化映射方面均优于当前最先进的方法,同时保持了快速推理速度。此外,在跨数据集实验中,语义映射的泛化性能提升了17.3%的 mIoU,矢量化映射的泛化性能提升了12.1%的 mAP。
代码地址: https://github.com/lynn-yu/GenMapping。
欢迎加入自动驾驶实战群
Introduction
在线高清(HD)地图模型,得益于灵活的映射和较低的成本,近年来取得了显著突破。目前,高清地图分为两类:语义映射和矢量化映射。语义映射采用网格格式描述道路区域,广泛应用于端到端的自动驾驶模型。矢量化映射则使用点和线表示道路实例,适用于路径规划和预测任务。
高清地图是在鸟瞰图(BEV)中构建的,其坐标系与透视视图垂直。当视觉传感器参数和深度值可用时,将透视特征转换为BEV空间变得相对简单。然而,当缺乏准确的深度值时,这通常很难在实际驾驶场景中测量,因此视图转换方法主要集中于研究视觉高清地图。HDMapNet的视图转换通过多层感知器(MLP)层隐式地学习了内在参数和深度。MapTRv2设计了嵌入数据集参考内外参的深度估计网络。这些方法基于深度值和相机参数将透视特征投影到BEV空间,被称为2D到3D转换。相比之下,StreamMapNet采用了3D到2D的转换方法,利用与视觉特征的投影关系获得的3D点特征被压缩为高度空间中的BEV特征。尽管这些巧妙的设计在单个数据集上表现出色,但由于这些模型在训练过程中引入了视觉传感器参数,在不同传感器配置的环境中,容易出现过拟合问题,无法有效运行。
如图1(a)所示,基于深度方法的跨数据集性能分析表明了严重的性能下降问题。视觉图像的绝对深度估计与相机参数密切相关。当在相机A(例如nuScenes)上训练的地图模型应用于相机B(例如Argoverse)时,网络通常使用相机A的参数来估计深度。即使将相机参数集成到模型训练中,泛化性能仍然不理想,难以学习正确的地图结构,如图1(b)所示。因此,我们提出了一个问题:解耦视觉传感器参数与训练过程,是否能够有助于提升泛化性能?逆透视映射(IPM)技术,凭借其对道路结构的强大先验知识,引起了我们的关注。IPM是一种3D到2D模式的特殊情况,通过将3D点设定在固定高度,获得作为地图模型学习对象的BEV道路图像。自然地,视觉传感器参数从模型学习中解耦,这对于跨数据域的部署具有优势。然而,正如图1©所示,IPM图像存在数据失真,缺乏道路平面上方的重要上下文交互,这对于BEV的理解非常重要。
为了释放IPM强大的泛化能力并解决上述挑战,我们提出了一个通用的在线高清地图构建模型,GenMapping。该框架采用三分支协同架构,包括主分支和两个辅助分支。由于IPM图像中的局部几何失真,主分支引入了基于状态空间模型(SSM)的模块来缓解这些局部失真问题。密集透视辅助分支在透视坐标系中学习动态和静态物体之间的密集关联,而稀疏先验辅助分支则基于OSM描述道路中心线的矢量线隐式编码可驾驶区域。此外,还设计了三重增强融合模块并嵌入主分支,通过逐层融合集成辅助特征。同时,我们还提出了联合学习和数据增强方法,以提高泛化能力。一方面,提出了跨视图地图学习(CVML)模块,在透视图和BEV空间之间建立互约束空间,从而加强模型的鲁棒性。另一方面,面对不同空间中对齐的特征,设计了双向数据增强(BiDA)模块,以减少对训练数据集的依赖。正如图2所验证的那样,GenMapping在公开的nuScenes数据集上取得了出色的表现。此外,面对跨数据集迁移实验(即从nuScenes(N)到Argoverse(A)的转换),实验结果表明,该方法在强大的在线高清地图构建中优于其他最新的技术。
3.Method
A. 问题表述
逆透视映射 (IPM):BEV 平面被划分为独立的小网格,代表自车坐标系中的 (Xi, Yi)。给定多视角透视图像
(或特征 F,地图 M)以及内参
和外参
,通过假设的高度 h 可以得到 IPM 图像
(或 IPM 特征
,或 IPM 地图
):
其中,Plane 代表所有网格的集合。
是相机坐标系中的深度值。u 和 v,
和
是像素坐标系中的值。n 是相机的数量。imH 和 imW 是透视坐标系中图像