清华最新Driving-RAG！精准场景搜索让自动驾驶决策又快又准~-优快云博客

点击下方卡片，关注“自动驾驶之心”公众号

今天自动驾驶之心为大家分享清华团队最新的工作—Driving-RAG：精准场景搜索让自动驾驶决策又快又准！如果您有相关工作需要分享，请在文末联系我们！

自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→自动驾驶之心『多模态大模型』技术交流群

论文作者 | Cheng Chang等

编辑 | 自动驾驶之心

本文创新性提出首个面向自动驾驶的场景检索增强生成框架 Driving-RAG，精准破解大规模场景数据嵌入模糊、搜索低效、RAG 应用乏力三大痛点！通过图卷积与注意力机制融合的场景嵌入模型，实现场景特征与距离度量的向量空间对齐，较传统方法效率提升50倍以上。本文所提出的Driving-RAG框架使自动驾驶规划的人类相似度进一步提升，成功解决匝道合流、交叉路口等交互场景的决策难题。

写在前面&笔者的个人理解

驾驶场景通常被定义为在特定时空范围内环境和驾驶行为的综合表示。它们系统地描述了各种交通参与者的状态和任务以及周围环境，包括道路网络和基础设施。场景数据在与智能车辆和机器人相关的任务中发挥了重要作用，如预测、规划、控制和测试。

在人工智能和大型模型的时代，自动驾驶和智能车辆系统的发展越来越依赖于大量的场景数据。一方面，场景数据需要被良好地存储和标记，以协助自动驾驶模型的高效训练和测试。典型的场景平台包括OpenScenario、MetaScenario和CommonRoad等。特别是，之前关于场景的工作实现了高效的数据存储，并提出了Graph-DTW度量来标记复杂交互和边缘场景，便于收集大量有价值的样本。另一方面，高效的搜索能力对于场景数据也是必不可少的。许多研究表明，利用以往的经验和知识可以使车辆做出更明智的决策并有效执行驾驶任务。一个突出的应用是将大型语言模型（LLMs）与检索增强生成（RAG）系统相结合，通过及时获取类似场景来生成准确且上下文相关的响应。RAG框架可以支持在线应用，如车辆规划和决策，以及离线应用，如场景生成和模拟。然而，实现类似场景的高效检索以及增强RAG应用仍然是具有挑战性的。

首先，传统的场景嵌入方法存在准确性或效率的问题，需要在向量空间中进行对齐，以便更好地区分场景，从而实现高效的搜索。其次，应建立针对场景分布的高效多级场景相似性搜索方法。具体来说，在第一层级，各种类型的驾驶场景涵盖了不同的车辆行为和交互。在第二层级，即使在同一个专家索引集群中，场景数据仍然多种多样。然后为了增强 RAG 的应用，需要重新组织检索结果。考虑到向量嵌入的可解释性相对有限，数据库中距离最近的场景之外的场景仍有可能跻身最接近的匹配行列，并能提供有价值的参考。

为了解决上述问题，本文提出了Driving-RAG框架，以促进场景嵌入、索引和增强RAG应用。我们在典型的轨迹规划任务中展示了所提框架的有效性，例如匝道和交叉口等复杂交互场景，展示了其在RAG应用中的优势。

论文链接：https://arxiv.org/pdf/2504.04419

Driving-RAG算法框架

本文提出的Driving-RAG算法框架的整体流程图如下图所示。具体而言，该框架包含对齐场景嵌入模型、用于场景向量相似性搜索的HNSW-TSD算法以及用于增强LLM生成的检索重组。

对齐场景嵌入模型

为了高效地获得准确的场景向量嵌入，我们通过图恢复和场景距离拟合任务训练对齐的场景嵌入模型。主干嵌入神经网络如下图所示。利用关系图卷积网络(RGCN)和Transformer对图数据的时间序列进行顺序嵌入。在关系图卷积神经网络的第层，图节点的隐藏层特征可以表示为如下的形式：

RGCN输出的特征将进行汇总，然后通过多头注意力机制捕捉时间图上下文之间的连接，然后通过将多头注意力的结果拼接到一起，得到最终的注意力结果。为了训练模型，首先，我们在自编码器架构中使用 RGCN 特征进行图恢复任务，该任务可以预测图的连接关系。虽然网络的自学习能力可以提取基本特征，但无法捕捉有效场景比较所需的更易识别和更复杂的特征。

接下来，我们利用下图的Graph-DTW场景距离度量，该度量集成了最优传输和 DTW 来计算场景距离。先前的研究已经证明Graph-DTW 可以有效地衡量场景之间的差异。虽然它能够对收集到的场景进行准确的标记，但嵌入任务会变得非常耗时。通过利用训练场景集中的距离标签，RGCN 和 Transformer 模型的理解和拟合能力，使我们能够提取更丰富的特征，这些特征既能解释场景的语义关系，又能反映场景的时空演变，最终提升嵌入效果。

训练过程类似于对比学习。一方面，通过图结构恢复来保持对场景的基本理解，约束可以防止场景距离过拟合。另一方面，时空特征的提取使场景嵌入距离更接近GraphDTW距离，从而可以有效区分场景。从嵌入性能的角度来看，当编码嵌入之间的距离与场景度量的距离紧密匹配，并且恢复后的图表现出较高的交并比 (IoU) 时，我们认识到该模型成功提取了有用的特征并实现了对齐。训练过程的损失函数设计为：

用于有效场景搜索的HNSW-TSD算法

考虑到场景数量众多，不同的交互类型已被分类并归因于基于车辆运动流的多个专家集。当车辆执行特定的在线或模拟任务并向专家数据库寻求帮助时，检索到的场景与提示场景具有相同的交互类型至关重要。该方法确保搜索结果提供更相关、更准确的参考。然后，利用上述嵌入模型，我们可以获取场景向量并在数据库系统中进行高效搜索。为此，我们在设计了一种新的向量搜索机制HNSW-TSD，该机制结合了HNSW和典型场景数据，其整体算法流程如下所示。

该算法支持基于构建的场景数据库灵活调整参数。前三个步骤只需执行一次，且更新周期较长；后两个步骤通过频繁的批量请求进行高效搜索。这种方法使我们能够以更高效且准确率中性的方式搜索相似场景。

基于RAG应用识别场景

为了利用检索场景增强LLM-RAG系统，我们以轨迹规划任务为例，首先，针对每个车辆任务，在不同的未来视野下，使用五次多项式生成n条候选轨迹，以考虑车辆行为的多种模态和场景的多种可能性。结合周围交互车辆的预测状态信息，构建多个潜在场景，用于搜索多个相似场景。通过判断交互类型，我们采用相应的嵌入模型获取场景向量，并使用HNSW-TSD算法在收集的场景数据库中进行Top-K搜索。然后，对于检索场景，我们通过图关系提取和层级选择进行重组，如算法2所示。

虽然场景图数据以向量形式嵌入以实现快速检索，但其表示形式可能仍然缺乏一定的可解释性。因此，可以利用图关系的原生知识来处理一小部分搜索结果。通过向量搜索和规则知识的融合，可以保证用于 RAG 的外部场景数据的相关性。

最后，如下面的两图所示，我们设计了简洁的提示，其中包含说明、场景、任务、思路链 (CoT) 以及基于先前研究的参考案例。LLM 根据对 CoT 问题的理解进行回答并提供规划结果。LLM 进一步自我解释场景，并提供适当的警告，并确保从外部数据库中学习相关知识。

实验结果&评价指标

我们对模型的有效性进行了验证，并探索了不同嵌入维度的效果，如下表所示。

对于两种场景类型，嵌入距离都接近 Graph-DTW 标记的距离，这表明该模型能够衡量场景差异，无论是提示与数据库之间的距离，还是提示与其他提示之间的距离。场景图结构的 IOU 指标也很高，这表明该模型保持了对基本场景的理解，并实现了特征对齐。

此外，我们对设计模型的各个部分进行了消融研究，如下图所示。首先，如果没有RGCN的图解析或图恢复任务的帮助，网络对场景图的理解会变弱，这体现在 IOU 的急剧下降上，同时也影响了场景距离的学习。其次，如果没有距离对比学习的帮助，距离估计会出现显著偏差，这表明自学习无法学习到易于识别的特征来区分场景。第三，Transformer 的注意力机制可以进一步促进这两个训练任务的学习。

在本文中，我们也通过实验的方式更好地证明 HNSW-TSD 算法的有效性，我们在相对较大的数据规模上进行了验证。我们设计的索引机制在搜索方法，比如Flat、IVF、PQ和HNSW下进行了比较。其相关实验结果如下图所示。

可以看出，在典型场景数据下，所有基础搜索算法的速度都提高了近一个数量级，而搜索精度则保持在同一水平，与最佳 Flat 结果相比没有任何损失。其中，HNSW-TSD 算法性能显著优于 IVF、PQ、Flat 等算法，在典型场景数据库中仅需 3 毫秒即可完成搜索任务。

我们也进行了参数敏感性分析，并比较了基于HNSW32方法下的不同参数搜索性能，如下表所示。

最后，我们通过典型的 LLM-RAG 轨迹规划应用程序来说明搜索场景数据的有效性，相关的实验数据如下表所示。

与传统的基于多项式的规划方法相比，LLM 具有一定的推理能力，具有完善的场景描述和目标函数，显著减少了驶出可驾驶区域和目标混淆的情况。无论使用全场景数据还是典型场景数据进行向量 HNSW 相似性搜索，规划结果都得到了显著提升。尤其是在所选数据库中，RAG 显著提升了搜索速度，同时仍保持了与全场景数据相当的有效性。

为了更加直观的展示提出算法的有效性，我们选取两个典型案例来说明，如下图所示。

结论

本文提出了Driving-RAG，这是一个基于驾驶场景数据的RAG框架，旨在优化速度而不牺牲准确性和性能。具体而言，我们引入了一个场景嵌入模型，该模型在向量空间中实现特征对齐，以准确高效地为场景数据提供合适的可区分嵌入。我们设计了HNSW-TSD向量搜索算法，将速度至少提高了10倍。在级别的数据规模下，嵌入和向量搜索的时间成本被压缩到约30毫秒。进一步通过关系提取进行重组，在LLM上验证了RAG和我们的搜索方法的有效性。与一般的LLM规划方法相比，性能显著提高。值得注意的是，尽管我们的DrivingRAG框架是为解决基于RAG的自动驾驶中的挑战而设计的，但它本质上是一个通用的解决方案，可以应用于涉及RAG或数据库系统的各种任务。在未来的工作中，我们旨在进一步探索传统方法与基于RAG的方法相结合所实现的协作性能，并讨论更多可以从该框架中受益的应用。

自动驾驶之心

论文辅导来啦

知识星球交流社区

近4000人的交流社区，近300+自动驾驶公司与科研结构加入！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎加入。

独家专业课程

端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网：www.zdjszx.com