作者 | 罗清雨 编辑 | 自动驾驶之心
原文链接:https://zhuanlan.zhihu.com/p/947364175
点击下方卡片,关注“自动驾驶之心”公众号
>>点击进入→自动驾驶之心『高精地图』技术交流群
本文只做学术分享,如有侵权,联系删文
高清地图(HD Map)对于自动驾驶非常重要,它提供了关于驾驶环境的详细信息,如车道标记、人行横道和道路边界等。传统的高清地图通常通过基于SLAM(即时定位与地图构建)的方法离线构建,这些方法主要的缺点如下
成本高,有相关资质的公司少
更新不及时,路况可能随时变化
容易与自车位置信息不一致,产生误差。
所以实时的地图生成成为了研究的重点,下面主要介绍几篇这个方向上的经典论文。
MapTR v1
过去传统车道线检测算法一般是基于分割,得到一系列散点,再利用模型进行后处理,将散点组成不同的车道线,通常需要聚类,匹配等算法,这个过程后处理一般比较重,往往需要2-3个全职的工程师维护这个过程,还伴随着很多的超参数,通常需要很大的维护量。
MapTR最大的贡献就是由模型直接出分割散点,变成了模型直接出车道线,减少了中间的后处理过程。
创新点
等价排列建模->解决GT歧义问题;
分层查询嵌入机制->更好的学习GT,先匹配车道线,再匹配车道线里面的点,降低学习难度;
等价排列建模
MapTR的核心在于将车道线离散化成点集(论文中取的20个点),如点(p1,p2,...p20),用来表征一条完整的车道线,这样产生了两个问题
车道线(Polyline):它是开放形状的元素,可以从任意一端开始定义,这样会产生两种等价的排列方式。对于没有方向的车道线,p1->p20是正确的GT,p20->p1也应该是正确的GT,解不唯一;
行人过道(Polygon):它是闭合形状的元素,每个点都可以作为起点,并且多边形可以沿顺时针或逆时针方向排列,这会导致多个等价的排列组合。

等价排序建模的核心思想是:对于每个地图元素,不强制使用唯一的排列顺序,而是允许所有等价排列。通过这种方式,模型可以在学习过程中处理不同排列方式的点集,而不会引入不必要的歧义。

作用与效果
稳定的学习过程:由于不再强制模型使用唯一的排列,模型在训练过程中对点集排列方式的选择更加灵活,能够适应不同形状的地图元素,避免了不必要的学习难度。
显著的性能提升:通过消除排列歧义,MapTR 在实验中表现出比使用固定排列的模型更高的性能。例如,文章提到使用等价排序建模后,模型的 mAP 提高了 5.9%,对行人过道的 AP 提升了 11.9%。
分层查询嵌入机制
在自动驾驶场景中,构建矢量化高清地图需要同时关注地图元素的整体结构(如行人过道的轮廓、车道线的走向)以及组成这些结构的精确点集(例如每个地图元素的关键点)。传统方法往往处理不够高效,或是只能逐步预测点集(如使用自回归解码器的逐点生成方法),导致推理速度较慢。
为了解决这一问题,MapTR 提出了一个分层查询嵌入机制,能够通过分层的方式同时处理实例级别和点级别的信息,提升了效率和准确性。
分层查询嵌入机制将地图元素的表示分为两层:
实例级别查询(Instance-level Queries):用于表示每个地图元素的整体结构。
点级别查询(Point-level Queries):用于表示组成地图元素的各个点的信息。
这两类查询结合起来,能够有效编码一个地图元素的全局信息和局部细节。具体的公式化如下:

LaneGAP
Lane Graph as Path:https://arxiv.org/pdf/2303.08815
主要贡献:
提出了一种基于路径的车道图建模方式:与传统的像素或片段级别的车道建模不同,作者提出了一种基于路径(Path-wise)的建模方式。该方法通过保持车道的连续性,更好地捕捉了道路拓扑结构,为自动驾驶中的轨迹规划提供了更有效的信息。
LaneGAP框架的设计:作者提出了一个名为LaneGAP的在线车道图构建方法。LaneGAP框架是端到端的,通过车载传感器(如摄像头和激光雷达)输入数据来学习路径,然后通过Path2Graph算法将路径恢复成完整的车道图。该方法保持了车道的连续性,并编码了交通信息,以便为后续的规划任务提供指导。
设计了新的图形评估指标:为了公平地比较不同建模方法,作者提出了一个新的图形中心评估指标,称为TOPO metric,专门评估车道图的连接性、方向性及其在交叉口等复杂区域的处理情况。该指标与不同的建模方法(像素级、片段级和路径级)兼容。
实验验证了路径级建模的优越性:作者通过在多个数据集(包括nuScenes和Argoverse2)上的定量和定性实验,证明了LaneGAP方法在精度和推理速度上优于现有的基于像素和片段的车道图建模方法。此外,LaneGAP还在OpenLane-V2数据集上击败了最新的片段建模方法TopoNet,在mIoU指标上提升了1.6,进一步证明了路径级建模的有效性。
基于路径的车道图建模方式
传统的车道图构建方法大致可以分为像素级(Pixel-wise)和片段级(Piece-wise)两类:
像素级方法(Pixel-wise Modeling):
流程:首先通过鸟瞰图视角(BEV)的像素级特征图来预测车道的分割图和方向图。然后,通过一些启发式的后处理步骤(如细化算法)从分割图中提取车道的骨架,最后将这些细化后的像素骨架连接成车道图。
优点:这种方法可以直接处理图像的每一个像素,适用于简单的车道环境,在某些场景下可以得到较高分辨率的结果。
缺点:由于像素级方法依赖于复杂的后处理步骤,这些步骤非常耗时,且在处理复杂路口或拓扑结构时容易失效(如连接点丢失、骨架不完整)。此外,生成的车道容易出现破碎和不连续的现象。
片段级方法(Piece-wise Modeling):
流程:车道首先被划分为多个小段(例如在车道分叉点或汇合点处进行分割),然后预测这些车道片段之间的连接关系。最后,基于这些片段和它们之间的连接关系,通过后处理步骤(Piece2Graph算法)将它们拼接成完整的车道图。
优点:这种方法试图捕捉车道的拓扑结构,特别是在处理交叉路口时,它可以通过片段连接的方式构建较为复杂的车道图。
缺点:该方法的核心问题是车道片段之间的连接预测困难,特别是在复杂的道路环境中,片段容易丢失,导致片段间的连接性不好。由此生成的车道图通常是不完整或碎片化的,车道连续性难以保证。
基于路径的建模方式(Path-wise Modeling)
高效的图构建:由于不需要复杂的后处理步骤(如像素细化或片段连接),路径建模方法可以更快地生成车道图,同时减少了不连续性或连接失败的问题。
适用于复杂场景:路径级方法特别适合处理复杂的路口和车道拓扑,因为它通过完整路径的方式捕捉了交通流动的连续性。
流程:首先,车道图通过一个新的算法Graph2Path被分解为一系列连续的路径,而不是分割成小的片段。然后,通过路径检测模型来检测完整的路径,并通过Path2Graph算法将这些路径还原为完整的车道图。
优点:保持车道的连续性:这种方法能够保持车道的全局连续性,不像像素级和片段级方法那样容易破碎或丢失片段。
缺点:路径级建模的挑战在于精确检测完整路径的难度,特别是在复杂的交通场景或环境不确定时,可能会对路径的检测提出更高要求。


MapTR v2

主要贡献:
解耦自注意力机制:大大降低了内存消耗并带来了收益,为了降低计算和内存成本,MapTRv2引入了分离的自注意力机制,在实例维度和点维度上分别进行注意力计算,显著减少了内存消耗,同时提高了性能。
一对多匹配:在训练过程中,除了基本的单一匹配外,MapTRv2还引入了一对多匹配分支,增加正样本比例,进一步提高了模型的学习效率。
辅助loss:对透视图和鸟瞰图都采用了辅助稠密监督,显著提高了性能。
拓展到中心线学习:MapTRv2将MapTR扩展到中心线建模和学习,这对于下游运动规划非常重要。
支持3D车道线检测:将框架扩展到3D地图构建(会议版本学习2D地图),并在Argoverse2数据集上提供额外的实验。
1.解耦自注意力机制
在标准自注意力机制中,计算复杂度是 ,如下图1所示:
其中
是实例查询(instance queries)的数量;
是每个实例中点查询(point queries)的数量。
通过解耦自注意力机制,计算复杂度降低为 ,如下图3所示。

2.一对多匹配(One-to-Many Matching)
是为了加速训练收敛而引入的一种技术。在这种机制下,通过为每个真实的地图元素分配多个预测元素,可以提高正样本的比例,从而提高模型训练的效率。
在标准的一对一匹配(One-to-One Matching)中,每个真实地图元素(Ground Truth, GT)被分配给一个预测元素。这种方法虽然有效,但在实际训练过程中,由于数据稀疏,正样本的数量较少,导致模型收敛较慢。为了增加正样本数量,加速模型的收敛过程,作者引入了一对多匹配机制。
一对多匹配的核心思想是为每个真实的地图元素生成多个预测元素,并通过与多个预测结果进行匹配,增加正样本的比例。这种方式在Transformer架构中非常适合,因为模型可以并行地处理大量查询(queries)。
具体实现
第一步: 使用一对一匹配组进行标准的匈牙利匹配,生成一对一的匹配结果。
第二步: 将真实地图元素重复 K 次,形成一对多匹配组,并对这些副本与预测实例进行匹配。
第三步: 使用一对一和一对多匹配的结果计算总损失,并优化模型。
一对多匹配通过为每个真实地图元素生成多个预测副本,增加了正样本的比例,从而加快了模型的训练收敛。这种技术特别适合于在线地图构建任务中,因为它能够显著提高模型的训练效率,同时保持甚至提升模型的性能。
辅助loss
本文提出了三种辅助损失,分别是:
深度预测损失(Depth Prediction Loss)
鸟瞰图分割损失(BEV Segmentation Loss)
透视视图分割损失(PV Segmentation Loss)

剥离分析结果

Map QR
《Leveraging Enhanced Queries of Point Sets for Vectorized Map Construction》2024 ECCV
https://arxiv.org/pdf/2402.17430
主要贡献:
创新的查询设计:提出了散射-聚合查询(Scatter-and-Gather Query),将查询显式地分为内容部分和位置部分。不同于传统方法对每个点分别进行位置预测,MapQR通过实例查询一次性预测多个点位置,利用位置信息加强对地图实例的构建。降低了运算复杂度。
性能提升:在多个在线地图构建基准数据集(如nuScenes和Argoverse 2)上,MapQR在保持高效的同时,达到了最佳的平均精度(mAP),超越了现有的最新方法。
散射-聚集查询机制(Scatter-and-Gather Query)
查询类型的区别
MapTR:每个点查询只负责预测一个位置,它们独立于其他点进行信息探测和预测。虽然所有点最后被组合成一个完整的地图元素,但点查询之间没有共享信息,导致每个点的内容信息较为分散,缺乏全局性。
MapQR(SGQ):散射-聚合查询通过实例查询将整个地图元素的点信息统一管理,所有点共享相同的内容信息但具有不同的位置信息。这种设计确保了地图元素的全局一致性,使得预测的每个点可以更好地捕捉到整个地图元素的特性。
计算复杂度的区别
MapTR:由于MapTR使用独立的点查询,计算自注意力(Self-Attention)的复杂度是 ,其中 N 是地图元素的数量,n 是每个元素中的点数量。随着查询数量的增加,计算复杂度会大幅上升。
MapQR(SGQ):散射-聚合查询的设计减少了点查询的数量,仅需对实例查询进行自注意力计算,计算复杂度为 。因此,相比MapTR,SGQ在处理大规模查询时更加高效,计算成本和内存消耗更低。
位置信息建模的区别
MapTR:位置信息是通过每个点的查询独立学习的。这种方式容易导致同一个地图元素内的不同点预测出现不一致的情况,尤其在复杂几何结构中,点预测可能会缺乏整体性。
MapQR(SGQ):SGQ通过参考点(Reference Points)显式建模位置信息,所有子查询的位置信息由这些参考点生成并嵌入。这种位置信息的显式建模不仅提升了每个点的准确性,还确保了整个地图元素的几何形状更加完整和准确。


1.实例查询的定义
每个地图元素(如车道线、道路边界)被一个实例查询(Instance Query, )表示。这个查询包含:
内容信息(Content Information):用于描述地图元素的几何和语义属性。
位置信息(Positional Information):用于定位地图元素的具体点位。
2. 散射操作(Scatter Operation)
在散射阶段,实例查询 被复制为多个子查询 qscai, , 这些子查询共享相同的内容信息,但具有不同的位置信息:
其中:
i表示第 i个地图元素。
j表示第 j 个点位。
n是地图元素中的点的数量。
3. 位置嵌入(Positional Embedding)
每个子查询 通过参考点(Reference Points, )生成位置信息。位置信息是通过参考点的坐标( , )生成并嵌入查询中:

其中:
PE(x)是位置信息x的正弦嵌入。
LP是线性变换,用于对位置嵌入进一步处理。
4. 信息交互(Cross-Attention)
散射的子查询 和输入特征图(BEV特征图, )进行交互,提取位置信息相关的特征:

5. 聚合操作(Gather Operation)
在聚合阶段,散射的子查询 被重新聚合成一个完整的实例查询 。通过将所有子查询的结果拼接,并通过MLP进行处理:
其中:
concat 是将所有子查询的结果拼接。
MLP 是多层感知机,用于聚合子查询。
6. 完整计算流程
完整的散射-聚合查询过程可以表示为:

与其他方法比较


自动驾驶之心
论文辅导来啦
知识星球交流社区
近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。
独家专业课程
端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频
学习官网:www.zdjszx.com