AAAI 2025最新！Topo2Seq：通过拓扑序列学习增强拓扑推理

最新推荐文章于 2025-12-02 21:35:49 发布

转载最新推荐文章于 2025-12-02 21:35:49 发布 · 446 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247656062&idx=2&sn=93317ae625886ed0e3068e0320d33e26&chksm=cf2aed58e8be2f8009a50473758b876cb4118d29b058da53052d6b159ecf955b0065b00cc092&scene=126&sessionid=0

文章标签：

#学习

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心为大家分享香港中文大学、武汉大学和腾讯最新的AAAI 2025工作！通过拓扑序列学习增强拓扑推理—Topo2Seq。如果您有相关工作需要分享，请在文末联系我们！

自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→自动驾驶之心『在线高精地图』技术交流群

论文作者 | Yiming Yang等

编辑 | 自动驾驶之心

论文链接：https://arxiv.org/pdf/2502.08974

摘要

从透视图（PV）中提取车道拓扑对于自动驾驶的规划和控制至关重要。这种方法无需依赖高精度（HD）地图即可为自动驾驶车辆提取潜在的可行驶轨迹。然而，DETR框架检测的无序性质和较弱的远程感知可能导致车道段端点错位和拓扑预测能力受限。受语言模型学习上下文关系的启发，道路连接关系可以被显式建模为拓扑序列。我们介绍了Topo2Seq，一种通过拓扑序列学习来增强拓扑推理的新方法。Topo2Seq的核心部分是在车道段解码器和拓扑序列解码器之间的随机顺序提示到序列（prompt-to-sequence）学习。双解编码器分支同时学习从有向无环图（DAG）和包含地理元信息的车道图中提取的车道拓扑序列。随机顺序提示-序列学习从车道段解码器预测的车道图中提取无序关键点，然后将其输入拓扑序列解码器的提示设计中以重建有序和完整的车道图。通过这种方式，车道段解码器能够从拓扑序列解码器中学习强大的远距离感知和精确的拓扑推理。值得注意的是，拓扑序列解码器只在训练过程中引入，而不影响推理的效率。在OpenLane-V2数据集上的实验评估表明，Topo2Seq在拓扑推理方面具有最先进的性能。

介绍

近年来，自动驾驶中的车道拓扑推理受到越来越多的关注。这是因为自动驾驶传统上依赖于离线高清地图来提供道路信息。然而，道路状况可能是不确定的和具有挑战性的，过时的离线高清地图对自动驾驶汽车来说可能是灾难性的。单纯依赖这些地图并不足以满足高级别自动驾驶的高级需求。

为了解决这些问题，自动驾驶车辆需要进行车道拓扑推理，这涉及从环视图像中实时感知周围道路并提取道路中心线的几何位置和拓扑关系。因此，车道拓扑推理对于端到端自动驾驶中的轨迹预测和规划至关重要。

最近关于车道拓扑推理的研究已经将中心线拓扑转化为车道图。这些端到端网络被设计用来预测以有序点集为表征的线段和由邻接矩阵表示的拓扑关系。然而，这些方法并没有显式地建模每个车道段之间的关系，而是依赖于MLP来确定每个查询之间的连接概率。由于DETR框架中的弱感知和无序检测特性，简单的MLP难以有效地学习车道之间的连通性。因此现有的方法存在多个弱点，如图1（a）所示。

图1：以往方法(a)和Topo2Seq(b)的比较:由于Deformable-DETR每个查询的采样位置有限并且检测的无序性，现有方法表现出严重的弱点。(b) Topo2Seq采用了一种随机提示-序列学习策略，通过拓扑序列学习增强了车道段感知和拓扑推理。

在语言模型中，序列学习可以在保持正确顺序的同时捕获长文本中的上下文关系。因此，受语言模型的启发，将车道图表示为序列，可以显式地捕获车道的几何位置和拓扑关系。然而，在序列到序列（sequence-to-sequence）的学习方法中，自回归模型依赖于先前的预测来产生后续输出，由于需要重复推理，导致相当低的推理效率（约0.1FPS）。在本文中，我们提出了Topo2Seq，一种通过拓扑序列学习来增强拓扑推理的新方法。Topo2Seq采用了一种双解码器结构，包括一个车道段解码器和拓扑序列解码器。拓扑序列解码器预测从有向无环图（DAG）中提取车道拓扑序列，而车道段解码器提取包含几何信息的车道图。然后随机提示-序列学习用于从车道段解码器预测的车道图中提取无序的关键点。这些关键点被输入拓扑序列解码器的提示设计中，从而能够重建一个有序和完整的车道图。在这种情况下，车道段解码器通过共享的编码器从拓扑序列解码器中获得了强大的远程感知和精确的拓扑推理能力，如图1(b)所示。值得注意的是，拓扑序列只在训练中引入，并不影响推理效率。

本文的贡献可以概括为以下：

我们提出了Topo2 Seq，一个新的双解码器训练框架，通过利用拓扑序列学习来增强拓扑推理。
我们显式地将车道图建模为序列来捕获车道的远距离几何位置和拓扑关系。
我们引入了一种随机顺序提示-序列学习机制，使车道段解码器从拓扑序列解码器中获得鲁棒的远程感知和准确的拓扑推理能力。
在基准数据集 OpenLane-V2上进行的大量实验证明了Topo2Seq的优秀性能。

方法详解

图2：Topo2Seq的框架。

Topo2Seq由三个主要组件组成。首先，通过图像主干、FPN和BEVFormer对环视图像进行处理，生成鸟瞰图（BEV）特征。然后，车道段解码器预测车道图。从预测的车道图中提取的首尾点被输入拓扑序列解码器以构造关键点提示，这些提示随后并与边缘序列连接。拓扑序列解码器推断离散关键点之间的关系，并将其重构为一个连贯的车道图。通过这样，拓扑序列解码器增强了BEV特征，改进了远距离感知能力，从而帮助车道段解码器进行拓扑推理。

1. 车道段解码器

我们将一组实例级的查询表示为，其中是预设的查询数，通常大于车道图中的中心线数。这些查询被输入车道段解码器以获得更新后的查询：

其中LaneDec表示车道段解码器。在每个车道段解码器层内，车道查询通过自注意模块、车道注意模块和前馈网络依次进行更新。

2. 预测头

我们使用MLPs（多层感知机）来生成3D车道坐标和拓扑矩阵A。车道间的拓扑关系预测为:

其中MLP是相互独立的。为了提供更详细的车道图表示，我们不仅预测拓扑结构，同时预测了左右车道边界偏移量，边界类型以及人行横道。

3. 拓扑序列解码器

我们参考Pix2Seq设计了拓扑序列解码器。每个解码器层包括自注意模块、交叉注意模块和前馈网络。自注意模块中的因果掩模保持自回归特性。整个结构在提取和细化BEV特征方面具有几个优势： (1)增强型特征细化：该模型可以根据序列中的关键点，有选择性地关注BEV特征的相关领域。这种有针对性的注意力通过强调对准确重建车道图或理解场景至关重要的区域，有助于细化BEV特征。(2)改进远程依赖：拓扑序列解码器增强了对序列中遥远关键点与BEV特征中相应区域之间的远程依赖性的捕获。这对于像车道拓扑推理这样的任务尤其重要，在这些任务中，理解广泛分离的点之间的关系是至关重要的。(3)上下文集成：通过关注特定的关键点提示，模型可以减少BEV特征中不相关或冗余信息的影响。这导致了更高效的特征提取，并可能减少最终预测结果中的噪声。训练拓扑序列解码器的输出可以表示为：

其中TopoSeqDec表示拓扑序列解码器，表示预测的边缘序列。

4. 序列结构

根据RoadNet，我们将有向无环图（DAG）转换为边序列。车道上的每个关键点都可以作为起点或终点，每条边都可以用6个整数表示：

其中，前两个整数int(),int()表示关键点的离散坐标。cls表示关键点的类别，可以是祖先、直系、分支或克隆节点。con表示关键点之间的连接。如果cls是祖先或直系的，则con被设置为0。否则，con将被设置为父关键点的索引。由于贝塞尔曲线可以有效地表征关键点之间的车道轨迹，最后两个整数int(),int()表示贝塞尔曲线的中间控制点。为了确定关键点的唯一顺序，我们选择BEV透视图中右前方的位置作为起点，并使用深度优先搜索来执行排序。

图3：输入序列和输出序列示意图

在训练过程中，我们构建了如图所示的两种类型的序列：输入序列和用于监督的目标序列。输入序列从< Start >标记开始，然后是关键点提示，然后是GT边，剩余的长度填充噪声边。关键点提示包括所有预测边的关键点以及噪声边。值得注意的是，关键点提示是无序的，不对应于边序列中的坐标的顺序。最后，关键点提示以< EOK >标记结束。在目标序列中，关键点提示的位置用< pad >标记填充，然后是地面真实边和噪声边，最后以< EOS >结束。为了帮助拓扑序列解码器识别哪些边是噪声边，有监督的噪声边在其类别位置用噪声类< ncls >标记，而其他位置则用< pad >标记填充。< pad >标记不计入损失计算。

5. 随机顺序提示到序列学习

由车道段解码器预测的车道通常有错位的端点，需要四个点来代表两条车道线，并可能产生显著的几何间隙。相比之下，边缘序列只使用了三个点来完美对齐的两条车道线，增强了对自动驾驶轨迹的理解。为了利用序列到序列学习的远距离理解和序列化关系能力，我们在关键点提示处促进了车道段解码器和序列拓扑解码器之间的交互。基于来自车道段解码器的预测，我们根据置信度从高到低对预测的车道线进行排序，并使用预测的邻接矩阵过滤掉任何重复的首尾点：

其中，关键点的坐标被离散化了。随机顺序提示到序列学习的目标可以表示为：

6. 损失函数

Topo2Seq中的总体损失函数定义如下：

其中，表示L1损失。表示车道分类的焦点损失（Focal Loss）。包括交叉熵损失和dice损失。表示分类左右车道类型的交叉熵损失（例如，不可见、实心、虚线）。是一个用于监督预测的邻接矩阵A真实邻接矩阵之间的关系信息的焦点损失。表示在预测标记时监督拓扑序列解码器的最大似然损失。每个损失的权重用,,,,和表示。

实验结果&评价指标

表1：模型定量性能比较（OpenLane-V2 数据集-车道段感知任务）

表1展示了不同模型在真实场景数据集OpenLane-V2上的定量结果，可以看到Topo2Seq在该数据集上取得了优秀的性能。我们首先比较了Topo2Seq与最先进的车道段检测方法在OpenLane-V2基准测试上的性能。关于OpenLane-V2子集A的结果如表1所示。当训练24个阶段（12个预训练阶段和12个解码器交互阶段）时，Topo2Seq性能在指标上比LaneSegNet高1.8%，在上高1.5%。使用ResNet-50进行了总共48个阶段的两阶段训练过程，Topo2Seq实现了37.7%的mAP和29.9%的。在相同的配置下，Topo2Seq在上超过LaneSegNet 2.0%，在上超过2.6%。

表2：模型定量性能比较（OpenLane-V2数据集-中心线感知任务）

表2展示了不同模型在OpenLane-V2数据集的中心线感知任务上的定量结果。在相同的24epochs训练中，Topo2Seq在OLS∗比LaneSegNet好2.0%，在高出2.4%，在高出1.7%。与同样经过484epochs的TopoMLP相比，Topo2Seq在上的表现比TopoMLP高出4.2%，在OLS∗中表现高出2.5%，在上高出2.4%，在为则高出2.7%。这些结果表明，在训练过程中引入一个额外的序列解码器交互，使得网络在拓扑推理方面取得显著改进。

消融研究

表3：对openlane-V2基准的消融研究： OP、RP、RPL分别为顺序GT关键点提示、随机顺序GT关键点提示和随机顺序提示到顺序学习。

我们研究了Topo2Seq中的每一个重要设计。消融研究见表3。在序列学习中引入有序GT关键点提示时，网络只能学习关键点之间的轨迹，而不必推断它们之间的关系。这解释了为什么Index 2的结果优于Index 1的结果，了提高了2.7%。将Index 2和Index 3的结果进行比较，可以发现，由于车道段解码器输出的不准确和不稳定，序列拓扑解码器与之交互过早导致性能不如使用随机顺序的GT关键点作为提示。然而，与Index 1中的结果相比，这种方法在拓扑推理方面仍然有了轻微的改进。从Index 2和Index 4的结果中可以看出，当车道段解码器预测的关键点被引入关键点提示，并在两个解码器间进行了24个阶段额外的交互训练时，mAP提高了2.8%，TOP增加了2.1%。这一结果表明，序列学习可以进一步增强车道分割解码器对关注区域的BEV特征的提取，特别是增强远程感知和拓扑推理。

图4：模型定性结果比较

如图4所示，我们可视化了由LaneSegNet和Topo2Seq生成的车道图。相比之下，Topo2Seq可以生成了具有对齐的端点的高质量的车道图，并且具有更可靠的远距离感知和准确的拓扑关系。这被归因于与序列拓扑的交互所带来的优势。

结论

我们介绍了Topo2Seq，一种基于拓扑序列学习的车道拓扑推理方法。受到语言模型的启发，我们通过序列到序列的学习，解决了基于DETR的拓扑推理框架的局限性。通过随机顺序提示到序列学习，我们增强了拓扑序列解码器和车道段解码器之间的交互。该方法能够使Topo2seq生成端点对齐以及拓扑关系更加准确的车道图。在OpenLane-V2数据集上的实验结果表明，Topo2Seq在拓扑推理方面实现了最先进的性能。

① 自动驾驶论文辅导来啦

② 国内首个自动驾驶学习社区

『自动驾驶之心知识星球』近4000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（端到端自动驾驶、世界模型、仿真闭环、2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎扫描加入

③全网独家视频课程

端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）