迈向以人为中心的自动驾驶：LLM与RL结合的快慢架构（同济大学）-优快云博客

点击下方卡片，关注“自动驾驶之心”公众号

今天自动驾驶之心为大家分享同济大学最新的工作！迈向以人为中心的自动驾驶：一种将大语言模型指导与强化学习相结合的快慢架构！如果您有相关工作需要分享，请在文末联系我们！

自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→自动驾驶之心『大语言模型』技术交流群

论文作者 | Chengkai Xu等

编辑 | 自动驾驶之心

写在前面 & 笔者的个人理解

自动驾驶通过数据驱动技术取得了显著进展，在标准化任务中实现了稳健的性能。然而，现有方法经常忽视用户特定的偏好，与用户互动和适应的空间有限。为解决这些挑战，我们提出了一种“快慢”决策框架，该框架结合了用于高层指令解析的大型语言模型（LLM）和用于低层实时决策的强化学习（RL）代理。在这一双系统中，LLM作为“慢”模块运行，将用户指令转换为结构化指导，而RL代理作为“快”模块运行，能够在严格的延迟约束下进行时间紧迫的操作。通过将高层决策与快速控制分离，我们的框架能够在保持稳健安全边际的同时实现个性化以用户为中心的操作。在各种驾驶场景中的实验评估证明了我们方法的有效性。与基线算法相比，所提出的架构不仅降低了碰撞率，而且使驾驶行为更贴近用户偏好，从而实现了以人为中心的模式。通过在决策层面整合用户指导并用实时控制加以完善，我们的框架弥合了个别乘客需求与在复杂交通环境中实现安全可靠驾驶所需严谨性之间的差距。

论文链接：https://arxiv.org/abs/2505.06875

简介

近年来，硬件和机器学习技术的快速进步推动了自动驾驶领域的显著进展，使其有望重塑现代交通系统。尽管取得了这些进展，但在实现以人为本的设计方面仍存在一个关键差距，即自主系统解释和适应多样化用户偏好的能力，例如“请快点，我快要迟到了”。传统的数据驱动或基于规则的方法往往难以将这种高层次、可能模糊的指令转化为有效的低层控制动作。此外，许多现有方法仍然缺乏整合用户反馈的稳健机制，限制了它们在现实世界中灵活适应不断变化的需求的能力。

强化学习（RL）由于其出色的学习和泛化能力，已被广泛应用于自动驾驶决策算法的设计中。基于RL的方法在定义明确的任务中表现出色。然而，RL系统通常将用户命令视为不存在或过于简单，阻碍了它们捕捉细微或不断变化的人类意图的能力。相比之下，基于规则的方法可以更直接地编码某些人类指导原则，但它们在适应新颖或罕见场景时灵活性不足，导致次优或脆弱的表现。

与此同时，以Deepseek和ChatGPT为代表的大型语言模型（LLMs）在自然语言理解和生成方面取得了显著成功。它们的生成能力使它们能够解析复杂或抽象的指令，可能为人车交互提供一个强大的接口。然而，尽管LLMs在语言任务上表现出色，但仅凭它们不足以胜任实时、安全至关重要的控制。此外，没有明确约束的情况下，它们可能会产生忽视安全边际、交通法规或物理可行性的指令。这些考虑因素使得LLMs更适合作为“慢”系统，在此系统中，它们的解释能力可以被用来将人类偏好转化为结构化的上下文感知指导，同时将快速、精细的控制决策委托给RL代理。

为了弥合这些互补优势之间的差距，我们提出了一种“快-慢”决策框架，该框架结合了一个用于高层命令解析的LLM和一个用于低层车辆控制的RL代理。如图1所示，LLM处理用户提供的命令并输出结构化指导信号。RL模块在实时约束下运行，然后根据LLM的命令调整转向和加速，确保适应性和稳健的安全性。通过利用LLM的解释能力和RL的效率，我们的框架解决了纯数据驱动方法与需要保证实时性能的知识驱动方法之间的差距。

我们的贡献可以总结如下：