CVPR‘25 SOTA！中科院&地平线GoalFlow：解锁端到端生成式策略新未来~

最新推荐文章于 2025-04-14 23:25:34 发布

原创最新推荐文章于 2025-04-14 23:25:34 发布 · 1k 阅读

CC 4.0 BY-SA版权

点击下方卡片，关注“自动驾驶之心”公众号

今天自动驾驶之心为大家分享中科院团队联合地平线机器人最新的工作！基于目标点约束的流匹配技术，显著提升自动驾驶轨迹规划质量与效率—GoalFlow！如果您有相关工作需要分享，请在文末联系我们！

自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→自动驾驶之心『端到端自动驾驶』技术交流群

论文作者 | Zebin Xing等

编辑 | 自动驾驶之心

论文地址：https://arxiv.org/abs/2503.05689

代码地址：https://github.com/YvanYin/GoalFlow

简介

在自动驾驶场景中，往往不仅只有一条最优的轨迹。例如对于某些场景，车辆可以选择超车或者跟车策略。以往的驾驶方法聚焦在用判别式的方法来生成轨迹，通过直接对轨迹进行回归学习来建模轨迹的分布。这种学习方式非常高效，且能生成安全精准的轨迹，但是很难对多模态轨迹进行有效的建模。

最近的一些方法希望通过以扩散模型为代表的生成式方法来建模轨迹的多模分布。这种训练加噪、推理去噪的范式能捕捉到数据的多峰分布，在轨迹规划的过程中为其提供大量发散的候选轨迹。但是这种发散轨迹会大大提高选择轨迹的难度，这往往需要比较强的先验信息，例如全场景的高精地图。另外，传统的扩散方法往往需要多步去噪，这大大提高了自动驾驶硬件的负担。

为了解决这个问题，我们提出了一种基于goal point的生成式方法GoalFlow，通过goal point引导轨迹规划模块生成轨迹。一方面，我们设计了一套map-free的goal point评估机制，能很好地捕捉到goal point的分布信息。另一方面，我们引入了一种更加高效的扩散模型变体，Flow Matching，通过简洁的扩散路径实现推理步数的大幅度减少。我们发现仅用一步去噪即可达到远超基线的效果。

方法

核心思路:引入goal point作为引导信息，通过建立密集的goal point词汇表和相应的评分机制挑选最优goal point，再由goal point和场景信息作为condition，由Flow Matching建模最终的轨迹分布。

pipleline:

感知信息提取：感知特征采用transfuser框架，分别由两个分别的backbone提取image和lidar的信息，将两种信息进行融合后得到BEV feature。
goal point词表：为了使得goal point词表能很好地捕捉到驾驶场景中的分布信息，我们首先通过聚类数据集中的轨迹末端点得到一个密集的goal point词表
goal point评分机制：通过goal point和ground-truth的轨迹末端点以及是否在可行驶区域内，对词表中的goal point进行打分。
Flow Matching建模：词表中的最高分goal point和BEV feature作为condiiton，来引导Flow Matching生成轨迹。
轨迹后处理：对于Flow Matching生成若干轨迹，通过筛选出的goal point进行打分，并引入阴影轨迹来对轨迹进行矫正。

Goal Point评分机制：

在自动驾驶中，对控制信息的精度往往要求比较高。我们发现对于Diffusion以及其变体Flow Matching，goal point可以对轨迹进行很好的约束和引导。这既可以用来引导多模态也可以用来对车辆进行精确控制。

goal point在自动驾驶中并不是个新事物，实际业务中往往可以使用车道信息来构造goal point或者使用直接将导航作为引导。但是车道信息往往需要昂贵的高精地图，而导航往往并不表示车辆在未来几秒后的精确信息。我们借鉴了VADv2的思想，通过聚类来捕捉goal point的分布，并用类似分类的方法来对聚类出来的goal point词表进行打分。具体来说我们分别构造了词表中点和ground-truth末端点的softmax，以及词表中点是否在可行驶区域作为gt信息，通过Scorer decoder对这两种信息进行监督。在推理时对这两种分数进行融合挑选出分数最高的点作为condition。

Flow Matching：

在图像生成领域已经验证了Flow Matching的强大建模能力。相比之前的Diffuison方法，Flow Matching有更加简洁的加噪去噪路径，往往需要更少的去噪步数即可达到很好的效果。但是直接训练很难平衡好场景信息和goal point信息对轨迹的引导作用。我们在训练过程中分别对不同的condition进行类别编码，并参考classifer-free guidance对其中的feature进行随机的置零。

实验结果

我们在最新的端到端驾驶数据集NAVSIM进行了实验。NAVSIM采用PDM score，通过碰撞率，可行驶区域，舒适率等对生成轨迹进行综合评定。GoalFlow的PDM score远超以transfuser为代表的基线方法。同时我们尝试将goal point替换成ground-truth轨迹的末端点，发现得分非常接近人类的驾驶分数，这说明goal point是一个非常好的对轨迹精调的condition。

在训练时采用100步数的条件下，我们对推理时的步数进行实验。实验发现，Flow Matching对推理步数不敏感，即使是一步推理，依然能达到远超基线的效果。

对比其他方法，GoalFlow借助goal point的评价机制能生成更加高质量的轨迹。同时在一定范围内goal point能引导出更加具有指示性的多模态轨迹，而不会使得轨迹过于发散。

Chen, S., Jiang, B., Gao, H., Liao, B., Xu, Q., Zhang, Q., Huang, C., Liu, W., and Wang, X. Vadv2: End-to-end vectorized autonomous driving via probabilistic planning. arXiv preprint arXiv:2402.13243, 2024.
Chitta, K., Prakash, A., Jaeger, B., Yu, Z., Renz, K., and Geiger, A. Transfuser: Imitation with transformer-based sensor fusion for autonomous driving. Pattern Analysis and Machine Intelligence (PAMI), 2023.
Jiang, C. “., Cornman, A., Park, C., Sapp, B., Zhou, Y., and Anguelov, D. Motiondiffuser: Controllable multi-agent motion prediction using diffusion. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 9644–9653, June 2023b.
Yang, B., Su, H., Gkanatsios, N., Ke, T.-W., Jain, A., Schneider, J., and Fragkiadaki, K. Diffusion-es: Gradientfree planning with diffusion for autonomous driving and zero-shot instruction following. arXiv preprint arXiv:2402.06559, 2024.
Sun, W., Lin, X., Shi, Y., Zhang, C., Wu, H., and Zheng, S. Sparsedrive: End-to-end autonomous driving via sparse scene representation. arXiv preprint arXiv:2405.19620, 2024.

① 自动驾驶论文辅导来啦

② 国内首个自动驾驶学习社区

『自动驾驶之心知识星球』近4000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（端到端自动驾驶、世界模型、仿真闭环、2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎扫描加入

③全网独家视频课程

端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）