港中文最新SOTA!HybriMap:充分利用PV 和BEV特征,nuScenes大涨4%!

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心在线高精地图技术交流群

论文作者 | Chi Zhang

编辑 | 自动驾驶之心

写在前面 & 笔者随笔

在自动驾驶的规划任务中,地图信息的重要性是不言而喻的。但是传统的SLAM离线建高精地图,不仅流程也复杂,成本也比较昂贵,所以行业里大家都在“卷”无图NOA。在线构建地图信息,车道线、斑马线、道路路沿等等,也得到越来越多的关注。HDMapNet, VectorMapNet, MapTRv2等等都是一些先前之作。这篇论文还是把静态地图的信息,用2D的vector来表示,通过网络的设计,提升了在 nuScenes 和 Argoverse 2数据集上的精度,实现SOTA。接下来,笔者将从相关工作(前人怎么做?)、论文动机 (为什么要做?)、论文方法(具体怎么做?)和论文结果(做的怎么样?)这三个方面,阐述这项工作。

相关工作

矢量化高精地图的构建

HDMapNet 涉及语义分割和实例编码的后处理过程,使地图能够以矢量化形式表示静态元素。后续研究普遍采用端到端网络来实现高精地图构建。有几种方法使用贝塞尔曲线 (Bezier curve) 来表示地图实例并通过参数曲线估计来预测高清地图。另一种主流的方法是将地图元素表示为 2D 向量。VecterMapNet 将地图构建构建为矢量检测问题。MapTR 和 MapTRv2 完成了地图向量表示,并以更具体的方式细化了整个检测流程。

跨视图信息利用

跨视图信息的利用是地图学习领域的一个典型主题。PyOccNet 通过金字塔网络将透视图( perspective-view,PV)特征转换为 BEV,保留输入中的多尺度信息。现有的跨视图变换会激活不同视图特征之间的相互响应,以增强目标域中的特征。也有些论文在地图视图下实现分割时涉及图像视图特征和相机编码。BEVFormerV2 是对 PV 特征进行后处理和编码,从而增强了网络对 BEV 特征的解码能力。ScalableMap 在源自 PV 特征的两个分支上采用融合模块来增强 BEV 特征。

论文动机

对于在线地图生成的任务,之前的一些论文通常可以分为以下三个步骤:

  1. 图像主干网络,用于从输入图像中提取透视图 (PV) 特征;

  2. 交叉视图转换网络,用于将 PV 特征投射到鸟瞰图;

  3. 基于transformer的 BEV 解码器,用于生成最终的地图预测。

然而,交叉视图转换网络的复杂性在前阶段数据丢失方面带来了重大挑战,特别是 PV 特征。以 MapTRv2 为例,这种先验损失问题通常表现为输入 PV 图像与最终地图预测之间的差异。如下图,蓝色区域中突出显示的车道分隔线在左图中可见,但在 MapTRv2 中却无法检测到。此外,黄色圆圈指示的道路边界在右图中似乎超出了交叉口,但 MapTRv2 将其错误预测为一个小实例。

61744e461e2561b16bc6473a94a90501.png

直观地讲,上述前阶段数据丢失问题可以通过再次利用具有空间先验的 PV 特征来解决。然而,值得注意的是,PV 特征通常包含大量来自天空和建筑物等不相关类别的冗余信息,因为 BEV 地图预测只需要地图元素。相反,尽管跨视图转换网络产生的 BEV 特征表示遭受先验损失,但与 PV 特征相比,它会关注更有意义和更复杂的元素。那么问题就来了:我们如何才能有效地保留 PV 和 BEV 特征中包含的真正有用的信息呢?这就促使了这篇工作 —— Hybrid approach of HD Map construction (HybriMap)。

简单来说,该模型结构涉及一个并行通道,来充分利用 PV 和 BEV 的特征来有效构建高清地图。作者设计了一个 Dual Enhancement Module (DEM),通过显式集成混合特征和隐式升级 BEV 特征来实现特征增强。DEM 的显式分支融合从 PV 特征获得集成位置编码,并协助后续解码;隐式分支专注于提取 BEV 特征中的有价值线索。模型具体结构和方法见下一章节。

论文方法

模型输入:来自 N 个相机的 RGB 图片;
模型输出: 个地图实例,有 个类别,每个实例由 个2D向量来表示。

c2f31d3f22e67b167673e8e2c9f270d2.png

模型结构主要包括以下几个模块,按顺序分为:

  1. Image Backbone:输入多视角的图片,用 Resnet50 提取图片特征,得到 PV 特征 ;

  2. PV-to-BEV:从 PV 特征中提取 BEV 特征 ,作者使用 LSS 作为默认方法;

  3. Dual Enhancement Module:这个模块,用上述两个步骤得到的特征,作为输入,输出两个东西:集成位置编码 (Integrated Positional Embedding) 和 增强版的 BEV 特征。具体做法,待会细说;

  4. Map Element Decoder:这个模块是基于transformer设计的解码器,直接输出所需的预测值。利用了 hierarchical query Q 作为query 和 增强版 BEV 特征作为 value。位置编码使用了全局可学习的位置编码,配合上步骤3中输出的集成位置编码。

关于 Dual Enhancement Module

那么具体这个 Dual Enhancement Module 模块怎么设计的呢?详见下面这张图:

b36bc5cadac1fd39d3a8f744b1f5a3de.png

BEV 特征会 downsample 得到 ,再 upsample,拼接原来的特征,经过1x1的卷积得到一个增强版 BEV 特征。与此同时, 会用到相机参数,投影到图片坐标系,与原来得到的 PV 特征,生成一个 heatmap,然后再转化成一个集成位置编码。值得一提的是,这里的 heatmap 是会被监督的。

关于Integrated Positional Embedding

PV 和 BEV 信息被显式合并在 DEM 的这个分支中生成集成位置编码。Deformable DETR 中提出,位置编码不仅充当输入信息的装饰元素,而且还在生成参考点方面发挥作用,而这些参考点会作为地图向量的初始估计。通过将混合特征合并到位置编码中,解码的特征表示和向量估计变得更容易接受从混合信息导出的线索。

假设 是 n 个级联的卷积层。首先用多个卷积层从 BEV 特征 中下采样得到 :

这里的 , 是一个预先定义好的下采样系数。

将投影到透视视角,通过给一个固定的高度,将一个 3D 坐标 用 相机的参数 投影到像素坐标系:

对于每个类别,都会生成一个 PV 特征,表示为 。这个特征图会由 来经过 MLP 编码:

这个式子中的 和 的关系,满足上述投影关系。 表示类别的index。

作者获得 integrated heatmap 就是将 PV 特征 和这个 融合到一起:

正如上述所说,这个 是会被监督的。最终的集成位置编码就是由这个 得来的:

作者可视化了 heatmap,如下图(a)所示。可以看到,热强度分布与透视图中的地图实例之间存在很强的相关性。例如,在左图中的人行横道附近和两个城市的道路边界附近都有着更高的热强度。由于集成位置编码是直接从集成热图转换而来的,因此它本质上包含了可靠的融合混合先验。因此,将混合特征集成到位置编码的形成中,从两个角度强制解码由高质量先验指导,从而在BEV特征上实现高级解码性能。

906ed2c56cb0b68e66a285e10e0d83bb.png

关于 Enhancement BEV Feature

在DEM的框架内,BEV特征的隐式增强是通过利用源自BEV特征的BEV Enhancement Map 来实现的。然而,由于增强特征 和受监督的集成热图之间的内在关系,BEV增强图 受到直接影响,有意加强了BEV特征的表示。因此,在混合输入的指导下,以间接方式有效地增强了BEV的功能。

其中 表示上采样层,“Cat"表示两部分的特征拼接融合。得到的强化版 BEV 特征 最终会被送入地图元素解码器得到预测值。

上图的(b)和(c)直观地描绘了隐性增强前后BEV特征的差异。与(b)中原有的BEV特征相比,(c)中增强的BEV特征更强调地图实例信息的描述,特别是在道路边界和人行横道附近。就结果而言,这种通过隐式增强对BEV特征的选择性强调,本质上产生了一种与实际地图分布更紧密的表示。

关于loss

  1. Heatmap Loss:
    Heatmap Loss 的目的是限制 DEM 中的增强过程。heatmap 与集成位置编码和 BEV 增强图密切相关。为了保证混合信息对 的适当影响,它由地图向量中存在的关键点形成的热力图进行监督。具体的做法和 centerpoint 很类似,以地图向量 ground truth 的关键点为中心,用恒定偏差的高斯核来投射到热力图上,最后用 focal loss 来计算损失反传:.

  2. Rasterized Instance Segmentation Loss:
    为了平衡关键点着重的影响并避免忽略琐碎点,作者在整体监督中引入了栅格化实例分割 (RIS) 损失 。对于预测向量 ,我们将分类分数 分配给相应的像素以形成 BEV 掩码 ,而二元目标掩码 由真实类别标签描述,表示为one-hot向量 。RIS 损失是 BEV 掩码和目标掩码之间的交叉熵损失: .

  3. Total loss:
    除此之外,和 MapTR 一样,作者利用 focal loss 来监督预测向量的类别,并利用 L1 范数来监督几何特性,其结果分别表示为分类损失 和点对点损失 。还继承了 MapTRV2的涉及边缘方向损失、辅助一对多损失、辅助密集损失的 。论文中 。

10541224631038b61e204cc9519436a3.png

论文结果

作者在 nuScenes 和 Argoverse 2两个数据集上做了定性和定量的分析,也做了一些消融实验:

定性分析

af96b320275885d9730b717c30cf32be.png

在上图中给出了各种天气或照明条件下的可视化地图结构结果。黄色区域突出显示了地图预测与相应透视图线索之间的差异。与现有方法相比,HybriMap成功完全检测了沿路边的分区和侧向(例如第1行和第3行)以及远处的交叉路口(例如第2行),表明更利用了透视视图提示的有效性。

另外,由于用 heatmap loss的监督,该方法可以在一定程度上解决由遮挡或图像模糊引起的原始形成不完整的问题。如图上图第二行所示,蓝色阴影区域中的通道分隔线在原始输入中几乎不可见。在集成热图监督和特征增强的综合作用下,该区域的实例得到了强调并成功解码。然而,由于对原始输入的强烈依赖,在PV特征甚至难以提取的情况下,该方法仍会受到限制。例如,在上图第3行中,横向预测错误,存在一些方向偏移。

nuScenes上的结果

结果表明,该方法不仅在 general thresholds 和 tighter thresholds 集都达到了最先进的性能,而且收敛速度也明显加快。与现有方法相比,该方法在道路边界类中通常表现出最显着的改进。这种改进可以归因于充分利用透视先验,因为道路边界通常不仅表现出显着的颜色变化,而且还被明显的地面条件变化所包围,从而拥有来自原始输入的最丰富的线索。

4743291f4cf05b4d8cda442eb70c5085.png

Argoverse 2上的结果

为了进一步证明方法的广泛有效性,我们在更大的 Argoverse 2 上展示了实验结果,如下表所示。对于两个阈值集,HybriMap 分别比现有方法提高了 2.5% 和 5.2% 的 mAP。实验结果表明,该方法在一般和更严格的标准下,在地图预测方面始终取得更先进的结果。

350b227e2accae964a611455216dbb64.png

消融实验

为了评估 dual enhancement 的效果,作者对 DEM 生成的两个输出(即集成位置编码和隐式增强的 BEV 特征)进行了单独的实验。下表展示了显式集成对位置嵌入和 BEV 增强的影响。这些增强分别使最终结果的 mAP 提高了 1.9% 和 1.0%。此外,双重增强可以利用两个增强分支的优势,从而显著提高 3.1% 的 mAP。

6fbc3cbe8f876fb66c9cd149cbf3d449.png

作者又进一步验证了所提出的损失函数(即 Heatmap Loss 和 RIS Loss)的影响。在 和 的共同影响下,整体结果的 mAP 提高了 1.7%。

2c10adb03d810f961a7f008b4c5854a1.png

总结

本文提出HybriMap来解决高精地图构建中的信息丢失问题。具体而言,作者设计了一种混合方法,以有效地重新利用来自原始输入的透视视图特征。此外,还采用了双增强模块,可同时提高解码性能和BEV性能。在数据集上的大量实验证明了该方法在高精地图构建中实现SOTA性能的优越性。期待上述研究能够为自动驾驶提供更可靠的地图支持,并为未来的高清地图研究做出贡献。

参考

[1] HybriMap: Hybrid Clues Utilization for Effective Vectorized HD Map Construction

投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署大模型与自动驾驶Nerf语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

f9513100771817006810be20c6899725.png 网页端官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业,近3000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型、端到端等,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

ab616a91bd61d538733d437863b9ecbc.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!

自动驾驶感知:目标检测、语义分割、BEV感知、毫米波雷达视觉融合、激光视觉融合、车道线检测、目标跟踪、Occupancy、深度估计、transformer、大模型、在线地图、点云处理、模型部署、CUDA加速等技术交流群;

多传感器标定:相机在线/离线标定、Lidar-Camera标定、Camera-Radar标定、Camera-IMU标定、多传感器时空同步等技术交流群;

多传感器融合:多传感器后融合技术交流群;

规划控制与预测:规划控制、轨迹预测、避障等技术交流群;

定位建图:视觉SLAM、激光SLAM、多传感器融合SLAM等技术交流群;

三维视觉:三维重建、NeRF、3D Gaussian Splatting技术交流群;

自动驾驶仿真:Carla仿真、Autoware仿真等技术交流群;

自动驾驶开发:自动驾驶开发、ROS等技术交流群;

其它方向:自动标注与数据闭环、产品经理、硬件选型、求职面试、自动驾驶测试等技术交流群;

扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

93d12b2b2a5ffec7f2184568ee688d26.jpeg

④【自动驾驶之心】硬件专场

67c0f4da07b8fa8b89b70d88595fbeb0.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值