点击下方卡片,关注“自动驾驶之心”公众号
今天自动驾驶之心为大家分享清华团队最新的工作—Driving-RAG:精准场景搜索让自动驾驶决策又快又准!如果您有相关工作需要分享,请在文末联系我们!
自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询
>>点击进入→自动驾驶之心『多模态大模型』技术交流群
论文作者 | Cheng Chang等
编辑 | 自动驾驶之心
本文创新性提出首个面向自动驾驶的场景检索增强生成框架 Driving-RAG,精准破解大规模场景数据嵌入模糊、搜索低效、RAG 应用乏力三大痛点!通过图卷积与注意力机制融合的场景嵌入模型,实现场景特征与距离度量的向量空间对齐,较传统方法效率提升50倍以上。本文所提出的Driving-RAG框架使自动驾驶规划的人类相似度进一步提升,成功解决匝道合流、交叉路口等交互场景的决策难题。
写在前面&笔者的个人理解
驾驶场景通常被定义为在特定时空范围内环境和驾驶行为的综合表示。它们系统地描述了各种交通参与者的状态和任务以及周围环境,包括道路网络和基础设施。场景数据在与智能车辆和机器人相关的任务中发挥了重要作用,如预测、规划、控制和测试。
在人工智能和大型模型的时代,自动驾驶和智能车辆系统的发展越来越依赖于大量的场景数据。一方面,场景数据需要被良好地存储和标记,以协助自动驾驶模型的高效训练和测试。典型的场景平台包括OpenScenario、MetaScenario和CommonRoad等。特别是,之前关于场景的工作实现了高效的数据存储,并提出了Graph-DTW度量来标记复杂交互和边缘场景,便于收集大量有价值的样本。另一方面,高效的搜索能力对于场景数据也是必不可少的。许多研究表明,利用以往的经验和知识可以使车辆做出更明智的决策并有效执行驾驶任务。一个突出的应用是将大型语言模型(LLMs)与检索增强生成(RAG)系统相结合,通过及时获取类似场景来生成准确且上下文相关的响应。RAG框架可以支持在线应用,如车辆规划和决策,以及离线应用,如场景生成和模拟。然而,实现类似场景的高效检索以及增强RAG应用仍然是具有挑战性的。
首先,传统的场景嵌入方法存在准确性或效率的问题,需要在向量空间中进行对齐,以便更好地区分场景,从而实现高效的搜索。其次,应建立针对场景分布的高效多级场景相似性搜索方法。具体来说,在第一层级,各种类型的驾驶场景涵盖了不同的车辆行为和交互。在第二层级,即使在同一个专家索引集群中,场景数据仍然多种多样。然后为了增强 RAG 的应用,需要重新组织检索结果。考虑到向量嵌入的可解释性相对有限,数据库中距离最近的场景之外的场景仍有可能跻身最接近的匹配行列,并能提供有价值的参考。
为了解决上述问题,本文提出了Driving-RAG框架,以促进场景嵌入、索引和增强RAG应用。我们在典型的轨迹规划任务中展示了所提框架的有效性,例如匝道和交叉口等复杂交互场景,展示了其在RAG应用中的优势。
论文链接:https://arxiv.org/pdf/2504.04419
Driving-RAG算法框架
本文提出的Driving-RAG算法框架的整体流程图如下图所示。具体而言,该框架包含对齐场景嵌入模型、用于场景向量相似性搜索的HNSW-TSD算法以及用于增强LLM生成的检索重组。
对齐场景嵌入模型
为了高效地获得准确的场景向量嵌入,我们通过图恢复和场景距离拟合任务训练对齐的场景嵌入模型。主干嵌入神经网络如下图所示。利用关系图卷积网络(RGCN)和Transformer对图数据的时间序列进行顺序嵌入。在关系图卷积神经网络的第

最低0.47元/天 解锁文章
1100

被折叠的 条评论
为什么被折叠?



