HeightMapNet:显式高度信息引入端到端建图领域,平均精度全面提升!

引言

近年来,利用环视图像建立高清地图的技术取得了显著进展,然而,现有技术在准确提取和利用道路特征及实现视图转换方面仍存在不足。为了解决这些问题,HeightMapNet通过动态建立图像特征与道路表面高度分布之间的联系,并利用多尺度特征,进一步提升了模型性能,超越了多种公认的现有方法。

论文题目:HeightMapNet: Explicit Height Modeling for End-to-End HD Map Learning

论文作者:Wenzhao Qiu, Shanmin Pang, Hao Zhang, Jianwu Fang, Jianru Xue

1 背景介绍

在自动驾驶领域,全面准确地理解自车周围的环境对于确保安全和高效的操作决策至关重要。环视方法因其成本效益和广泛适用性在这一领域取得了显著进展。当前技术主要分为基于稀疏查询的方法和基于密集BEV的方法。受到DETR架构的启发,稀疏查询方法利用可学习的全局查询表示,通过与环视图像特征的交互进行优化来检测元素。虽然这种策略有效地控制了查询数量的增长,但其对静态全局查询的依赖限制了在动态环境中的适应性,常导致远距离检测不准确。

相比之下,基于BEV的方法通过透视转换模块将透视视图(PV)转换为BEV表示,随后利用地图检测头进行特征处理。BEV方法在实时地图构建中展示了最先进的性能,近来在该领域已占据主导地位。

现有的BEV方法通常使用增强的LSS或注意力机制作为透视转换模块的基线。基于LSS的方法往往需要额外的损失函数来加速检测器的收敛速度,而基于注意力的方法通常依赖额外模块来提升BEV特征的输出效果。然而,这些方法在从PV到BEV的转换过程中,往往忽视了道路特征的垂直维度,降低了对复杂环境细节的准确刻画能力。

此外,多数现有研究在处理多视角输入的图像特征时,未能充分解决非关键元素(如天空等多余背景特征)的过滤问题。这种忽视选择性背景过滤的策略舍弃了重要的降噪机会,从而显著降低了感知输出的准确性和可靠性。尽管现有方法通常集中使用单层图像特征以提高计算效率,但这在很大程度上忽视了在BEV空间中进行多尺度特征融合的潜力和优势。这种限制降低了模型在复杂道路环境中导航的有效性。

方法引入

为了解决这些挑战,作者提出了一种新的视图转换范式,细致地建立了图像特征与道路表面高度分布之间的关联,并整合高度先验以提升BEV特征的准确性,显著增强了对复杂环境细节的描绘能力。此外,作者开发了一个基于自监督学习的前景-背景分离网络,优化了道路特征的提取和利用,有效减少了非关键背景元素,从而提升了输入特征的清晰度和质量。此外,作者还在BEV空间内实现了多尺度特征融合,增强了地图构建在复杂道路环境中的精度和鲁棒性。

图片

图1:HeightMapNet的总体架构

3 方法细节

3.1 概述

图1展示了HeightMapNet的算法流程。首先,通过特征编码器从原始图像中提取多尺度PV特征F = {F1, F2, …,Fs}(其中s表示尺度数)。这些PV特征在前景-背景分离网络中被细化,有效区分道路元素与非道路元素,提升了特征信息的纯度。接下来,高度预测机制促进了从传统PV到BEV的特征转换。借助全面的空间表示,这一转换显著提升了感知的准确性。

随后,通过多尺度特征融合技术,将不同尺度下捕获的BEV特征整合起来,增强模型对复杂场景的适应性。最后,特征解码器将处理后的特征转换为矢量化场景表示。该表示能够详细描述关键的静态道路元素,如车道线、道路边界和人行横道,精确反映实际道路状况。

3.2 前景-背景分离网络

在图像特征处理中,大多数现有研究未能充分区分前景道路元素与非必要背景元素。这种背景信息的存在使模型容易受到无关数据的干扰,从而降低处理效率。为了解决这一问题,作者开发了一个基于自监督学习的前景-背景分离网络,通过投影关系强化模型对相关道路元素的关注。该网络旨在生成精确的前景掩码,有效减少与道路无关的背景信息。

如图1所示,前景-背景分离网络接收多尺度PV特征Fi作为输入,并通过简化的多层感知器(MLP)进行处理。该MLP生成相应的前景掩码Fi^mask,然后通过残差连接将其与原始PV特征结合。结合过程采用哈达玛积来细致调整特征图的位置强度,处理后的数据随后被加回到原始PV特征中,以丰富其置信信息。这种策略显著增强了特征集的抗干扰能力。具体流程如下:

图片

图片

此外,作者引入了一种基于几何投影关系的自监督方法来生成真实值,以准确定义前景掩码。具体而言,首先在BEV空间中建立一个在[-2.0m, 2.0m]范围内均匀分布的参考点。利用相机的内参和外参矩阵,这些点从3D空间投影到2D图像平面。投影范围内的特征被分类为前景,包括道路及其周围的关键元素;而投影范围外的区域则被视为背景,通常包括天空等非道路元素。经过前景-背景分离网络处理后,细化的图像特征实现了对道路及其邻近关键前景元素的高度关注。随后,这些细化的前景特征被用于高度预测机制,从而增强了透视转换过程的效果。

图片

图2. 高度预测机制示意图

3.3 高度预测机制

在基于BEV的框架中,透视转换传统上被认为是病态问题,通常通过复杂的深度或注意力机制直接生成转换后的BEV特征来解决。尽管这些方法有效,但它们增加了模型的复杂性,并降低了其可解释性。为了解决这些问题,作者提出了一种新颖的高度预测机制,该机制利用高度分布的先验知识,将任务从直接生成BEV特征转变为高度分布概率的估计,从而显著降低了模型在透视转换中的学习复杂性。

如图2所示,在HeightMapNet中,掩码PV特征首先经过位置编码(PE)和平均池化(AP)进行初步处理。这些步骤旨在提取全局图像特征,为后续的高度分布概率建模准备。经过处理后,模型将全局信息整合到预定义的查询中,以实现动态初始化。最终的高度分布概率通过一个简单的MLP计算得出。在实现中,最高层的图像特征共享高度分布概率以简化模型结构。

图片

此外,高度预测机制采用了与前景-背景分离网络相似的空间采样策略。该策略使用预定义的参考点,在靠近道路的BEV空间中进行观测。通过相机的内参I和外参K将这些点投影到PV空间,有效捕获了多尺度特征,记为。

图片

根据高度分布概率捕获的这些图像特征随后沿Z轴进行加权池化,细化了与道路接近的特征,最终生成多尺度BEV特征。

图片

总结而言,高度预测机制的架构和实现不仅简化并指导了透视转换过程,还确保了结果中多尺度BEV特征对道路元素的精确聚焦。这种聚焦提供了对周围道路元素的详细和全面表示,从而为后续的多尺度特征融合模块奠定了坚实的基础。

图片

图3. 多尺度特征融合示意图

3.4 多尺度特征融合

为了解决现有BEV方法依赖单层图像特征的限制,作者提出了一个多尺度特征融合模块,以优化高清地图中不同元素的表示。传统方法虽然在计算效率上表现良好,但未能充分利用不同层次特征对远近不同元素的适应性。例如,远距离元素由于捕获难度较大,往往需要来自低层的大分辨率特征,而更大的近处元素则更适合由高层特征进行捕获。为了解决这一问题,作者设计了一个多尺度特征融合模块,在BEV阶段协调并整合不同尺度的特征,如图3所示。

在本模型中,多尺度BEV特征首先通过特征连接进行粗略整合,为后续的特征处理提供基础。接下来,一个特别定制的卷积神经网络(CNN)被用于处理这些初步整合的特征,以提升特征的表示能力,并加深模型对空间动态的理解,从而更加细致地解释道路环境。此外,作者在融合模块中集成了可变形注意力机制,使模型能够动态选择性地增强关键特征区域的表示。该机制赋予模型自适应能力,确保模型在推理过程中更加专注于对结果至关重要的区域,提升特征融合的有效性和效率。

融合过程之后,作者使用MLP对整合后的特征进行细致优化。MLP由一系列线性层组成,并在战略位置引入残差连接,以确保生成的BEV特征既丰富又稳定。融合和优化的具体步骤如下所示,其中DA代表可变形注意力机制:

图片

通过这一架构,有效提升了BEV特征的表达能力,使其更全面地反映道路及其周围环境的复杂性。

3.5 训练损失

HeightMapNet采用了端到端的训练方法,通过实例级和点级分配进行微调,以实现高精度的场景理解。训练框架由四个关键损失组件支撑,分别为分类损失Lcls、点对点损失Lpos、边缘方向损失Ldir和掩码损失Lmask。整体损失函数的表达式如下:

图片

其中,Lcls、Lpos和Ldir的配置与MapTR的标准协议保持一致,确保了模型在受认可的基准上的一致性和可比性。掩码损失Lmask专为增强前景-背景分离网络对道路及关键元素的关注而设计。此损失使用曼哈顿距离来度量预测的前景掩码与真实前景掩码之间的差异。其数学表达式为:

图片

其中,Fi^mask损失和Fi^mask_GT分别表示PV特征中预测的前景掩码和地面真实的前景掩码。

通过这些精心设计的损失函数,HeightMapNet实现了对道路及其周围重要元素的更准确和有效的建模,从而在复杂场景下提高了模型的可靠性和泛化能力。

4 实验结果

实验结果表明,HeightMapNet在nuScenes和Argoverse 2等具有挑战性的数据集上表现卓越,超越了多种公认的现有方法。

表1. 在nuScenes测试集上的实验结果对比

图片

表2. 在nuScenes测试集上更严格的评价标准下的性能对比

图片

表3. 在nuScenes验证集上的实验结果对比

图片

表4. 在Argoverse 2测试集的实验结果对比

图片

表5. 在nuScenes测试集上的消融实验结果

图片

表6. 不同数量高度值采样点的消融实验

图片

图片

图4. 不同数量高度值采样点的消融实验

表7. 不同自监督损失权重的消融实验结果

图片

5 结论

在本文中,我们介绍了一种新颖的视图转换框架HeightMapNet,该框架创新性地整合了高度先验知识以增强对道路表面的解析能力。模型引入了前景-背景分离技术,从而细致地关注道路及其关键特征,提高了特征提取的纯度和质量。此外,通过在BEV(鸟瞰视图)空间内整合多尺度特征,HeightMapNet最大化了空间几何信息的利用,使其在复杂场景下更具鲁棒性。实验结果证明了HeightMapNet的出色性能,展示了其在实际驾驶环境和高清地图生成中的高精度和可靠性,为自动驾驶技术提供了更加稳定和全面的解决方案。

Ref:

HeightMapNet: Explicit Height Modeling for End-to-End HD Map Learning

编译|Deep蓝同学

审核|alan

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值