清华最新ADRD：自动驾驶决策树模型实现可解释性与性能双突破！-优快云博客

作者 | Fanzhi Zeng 来源 | 深蓝AI

点击下方卡片，关注“自动驾驶之心”公众号

本文只做学术分享，如有侵权，联系删文

摘要

近年来自动驾驶领域飞速发展并且取得了诸多令人满意的成果，同时也对自动驾驶系统中的决策模块的可解释性提出了越来越高的要求。目前，如何让自动驾驶决策过程的内部逻辑更加透明和容易让人理解已经成为了一个非常热门的研究领域。

基于深度学习的决策可以方便的进行数据驱动，目前已成为自动驾驶领域的主流方法。然而，此类系统通常严重依赖训练数据，导致在遇到非分布驾驶场景时性能急剧下降。此外，这些模型通常参数化程度过高，导致决策逻辑难以解释，并且当性能不佳时，领域专家很难对其进行修改或者调试。

基于规则的决策系统通过定义明确的规则来指导车辆行为，具备很好的透明性和可解释性。但也存在着高度依赖于专家知识，开发成本高昂，对复杂动态交通环境的适应性有限等问题。

针对上述提到的相关问题，并且考虑到目前大语言模型展现出丰富的世界知识和强大的推理能力。本文提出了一种新颖的基于规则决策的LLM驱动的自动驾驶框架ADRD。在自动驾驶仿真平台highway-env上的实验结果表明，ADRD在多种典型驾驶场景中表现出强大的泛化能力和鲁棒性。与传统的知识驱动方法和数据驱动的强化学习方法相比，ADRD在决策性能、响应效率和可解释性方面取得了显著提升。

论文标题：ADRD: LLM-Driven Autonomous Driving Based on Rule-based Decision Systems

论文作者：Fanzhi Zeng, Siqi Wang, Chuzhao Zhu, Li Li

论文链接：https://arxiv.org/pdf/2506.14299

—

算法模型与实现细节

图1：ADRD算法模型的整体流程图

算法模型整体介绍

本文提出的ADRD算法模型的整体流程图如图1所示。可以看出，ADRD由信息模块、代理模块和测试模块构成，分别用于构建初始驾驶信息集合，分析和推理驾驶决策逻辑以及进行测试和反馈。

在ADRD的训练过程中，信息模块将场景信息、车辆信息和驾驶规则转换为LLM可理解的自然语言文本。驾驶环境和车辆信息来自车辆的环境观测，驾驶规则来自预先定义的交通规则。信息模块的具体输出示例如图2所示，这些输出为后续的代理模块中的理解、推理和决策树构建奠定基础。

图2：信息模块的具体输出示例

代理模块包括规划器、编码器以及汇总器。三者相互协作确保决策树的稳定推理，并且根据失败的交互进行改进实现有效的闭环迭代。

规划器根据驾驶场景的文本描述和预先定义的驾驶目标生成初步的驾驶策略。
编码器将规划器提供的详细驾驶策略描述转化为适用于特定模拟环境的可执行Python代码，这些代码被部署到真实或模拟驾驶环境中进行验证。
汇总器根据测试模块的碰撞报告评估规划器生成的策略和编码器生成的代码，识别潜在问题，并为这两个模块提供详细的改进建议。

规划器

在驾驶行为决策树的生成过程中，规划器主要承担认知、推理和规划的角色。规划器的提示生成器由系统提示、驾驶目标、过往计划以及改进建议组成。

系统提示描述了规划器在智能体组中的角色，并指定了标准化的输出格式。
驾驶目标定义了规划器构建决策树时所需的驾驶风格，例如保守型或激进型。
历史规划记录和改进建议帮助规划器生成更精细、更稳健的驾驶策略。

本文以主动变道操作为例，介绍了其实现流程：

1. 当评估前车的车距明显小于安全距离，同时接近速度较快时。

a. 首先，检查相邻车道是否有足够的空间完成换道操作。如果本车不在最左车道，则优先换至左车道；否则，考虑换至右车道。

b. 评估换至相邻车道的安全性，并考虑车速和其他潜在危险。

c. 如果目标车道满足安全条件，则立即执行换道。

2. 如果换道条件不满足，则退回到减速操作。

图3展示了在特定高速驾驶场景下，强化学习算法生成的驾驶策略与LLM生成的驾驶策略的比较。可以看出LLM生成的策略不仅与人类驾驶习惯自然契合，而且易于人类专家解读和修改，表明ADRD有效地克服了传统决策的局限性。

图3：不同驾驶策略的比较

代码器

代码器的主要职责是根据规划器生成文本驾驶策略。包含系统提示、文本驾驶策略描述以及历史代码和改进建议。系统提示定义了代码器的标准化输出格式，以确保生成的代码能够以编程方式解码。

图4展示了将融合驾驶策略函数可视化为决策树结构。可以看出该方式便于人类专家读取、分析和识别潜在的逻辑漏洞。

图4：由ADRD生成的保守决策树

总结器

总结器用于保证驾驶效率和安全性，包含系统提示、碰撞报告和相应的决策树代码实现。

系统提示描述了总结器的职责，即识别错误出自规划器生成的驾驶策略还是编码器的Python代码实现。碰撞报告由测试模块格式化，作为LLM推断碰撞原因并将其映射到驾驶策略和可执行代码中问题的参考数据。

—

实验

本文使用来自Highway-env环境中的Highway-v0场景进行实验。并采用Highway-v0 提供的离散动作空间作为自主车辆可能的驾驶决策集合，包括保持当前速度和车道、减速、加速、向左变道、向右变道。

本文比较了三种不同的方法，实验结果如图5所示。可以看ADRD不仅在所有方法中实现了最长的平均安全驾驶时间，而且推理速度也最快。

图5：不同驾驶场景设置下的实验结果比较

此外，本文也进一步研究了驾驶风格和场景难度对于决策树结构的影响。图6比较了在保守型和激进型驾驶风格的提示设置下生成的决策树，可以观察到，与保守型驾驶风格对应的决策树相对较浅且结构简单，而激进型驾驶风格的决策树则表现出更大的深度和结构复杂性。

图6：从激进策略中得到的决策树

—

结论

本文探索了如何利用大语言模型生成用于自动驾驶决策的决策树，并且提出了一种新颖的基于规则决策的LLM驱动的自动驾驶框架ADRD。大量的实验结果表明，ADRD不仅优于传统的强化学习方法，而且展现出了比基于知识驱动的算法模型更好的性能，实现了更高性能、更快速的响应和高度可解释的自动驾驶决策。

自动驾驶之心

论文辅导来啦

知识星球交流社区

近4000人的交流社区，近300+自动驾驶公司与科研结构加入！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎加入。

独家专业课程

端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网：www.zdjszx.com