迈向以人为中心的自动驾驶:LLM与RL结合的快慢架构(同济大学)

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心为大家分享同济大学最新的工作!迈向以人为中心的自动驾驶:一种将大语言模型指导与强化学习相结合的快慢架构!如果您有相关工作需要分享,请在文末联系我们!

自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→自动驾驶之心『大语言模型』技术交流群

论文作者 | Chengkai Xu等

编辑 | 自动驾驶之心

写在前面 & 笔者的个人理解

自动驾驶通过数据驱动技术取得了显著进展,在标准化任务中实现了稳健的性能。然而,现有方法经常忽视用户特定的偏好,与用户互动和适应的空间有限。为解决这些挑战,我们提出了一种“快慢”决策框架,该框架结合了用于高层指令解析的大型语言模型(LLM)和用于低层实时决策的强化学习(RL)代理。在这一双系统中,LLM作为“慢”模块运行,将用户指令转换为结构化指导,而RL代理作为“快”模块运行,能够在严格的延迟约束下进行时间紧迫的操作。通过将高层决策与快速控制分离,我们的框架能够在保持稳健安全边际的同时实现个性化以用户为中心的操作。在各种驾驶场景中的实验评估证明了我们方法的有效性。与基线算法相比,所提出的架构不仅降低了碰撞率,而且使驾驶行为更贴近用户偏好,从而实现了以人为中心的模式。通过在决策层面整合用户指导并用实时控制加以完善,我们的框架弥合了个别乘客需求与在复杂交通环境中实现安全可靠驾驶所需严谨性之间的差距。

  • 论文链接:https://arxiv.org/abs/2505.06875

简介

近年来,硬件和机器学习技术的快速进步推动了自动驾驶领域的显著进展,使其有望重塑现代交通系统。尽管取得了这些进展,但在实现以人为本的设计方面仍存在一个关键差距,即自主系统解释和适应多样化用户偏好的能力,例如“请快点,我快要迟到了”。传统的数据驱动或基于规则的方法往往难以将这种高层次、可能模糊的指令转化为有效的低层控制动作。此外,许多现有方法仍然缺乏整合用户反馈的稳健机制,限制了它们在现实世界中灵活适应不断变化的需求的能力。

强化学习(RL)由于其出色的学习和泛化能力,已被广泛应用于自动驾驶决策算法的设计中。基于RL的方法在定义明确的任务中表现出色。然而,RL系统通常将用户命令视为不存在或过于简单,阻碍了它们捕捉细微或不断变化的人类意图的能力。相比之下,基于规则的方法可以更直接地编码某些人类指导原则,但它们在适应新颖或罕见场景时灵活性不足,导致次优或脆弱的表现。

与此同时,以Deepseek和ChatGPT为代表的大型语言模型(LLMs)在自然语言理解和生成方面取得了显著成功。它们的生成能力使它们能够解析复杂或抽象的指令,可能为人车交互提供一个强大的接口。然而,尽管LLMs在语言任务上表现出色,但仅凭它们不足以胜任实时、安全至关重要的控制。此外,没有明确约束的情况下,它们可能会产生忽视安全边际、交通法规或物理可行性的指令。这些考虑因素使得LLMs更适合作为“慢”系统,在此系统中,它们的解释能力可以被用来将人类偏好转化为结构化的上下文感知指导,同时将快速、精细的控制决策委托给RL代理。

为了弥合这些互补优势之间的差距,我们提出了一种“快-慢”决策框架,该框架结合了一个用于高层命令解析的LLM和一个用于低层车辆控制的RL代理。如图1所示,LLM处理用户提供的命令并输出结构化指导信号。RL模块在实时约束下运行,然后根据LLM的命令调整转向和加速,确保适应性和稳健的安全性。通过利用LLM的解释能力和RL的效率,我们的框架解决了纯数据驱动方法与需要保证实时性能的知识驱动方法之间的差距。

我们的贡献可以总结如下:

  • 提出了一种新颖的以人为中心的双层决策框架,该框架集成了用于解释高层用户指令的LLM和用于实时、低层决策的RL代理。

  • 设计了一种自适应协调机制,使RL代理能够在安全约束要求时选择性地延迟或覆盖LLM的指令,从而平衡用户偏好和风险。

  • 在一系列驾驶场景中对所提出的框架进行了实证评估,结果表明其在安全性和对用户偏好的遵循方面优于现有基线。

相关工作回顾

自动驾驶中的强化学习

强化学习(RL)方法越来越多地应用于自动驾驶任务中,例如换道、自适应巡航控制和超车操作。虽然这些数据驱动的方法在模拟环境中通常表现出色,但仍存在几个挑战。

大多数强化学习代理都是基于固定目标开发和评估的,无法整合现实中可能出现的不断变化的用户需求。接受人类输入的方法通常将其视为静态或过于简单,限制了它们对动态用户偏好的响应能力。同时,尽管强化学习在具有稳定奖励结构的明确定义任务中表现出色,但在遇到乘客的模糊指令时,在分布转移的情况下仍然容易出现泛化能力差的问题。这些问题凸显了需要更灵活的框架来平衡稳健策略学习与多样化用户目标的需求。

以人为本的自主系统

除了强化学习的研究之外,人们对以人为本的自主系统也日益关注。主要目标是设计能够直观解释人类偏好并将其纳入控制回路的方法。

早期的工作主要依赖语音或文本接口,使用基于规则的自然语言解析器或简单的机器学习模型,允许有限的车辆参数定制。然而,这些解决方案往往存在语言覆盖不全或缺乏理解更抽象、情境感知命令的能力。

大型语言模型(LLMs)的最新进展激发了将生成式语言能力应用于驾驶任务的兴趣。尽管LLMs在解析和生成复杂人类指令方面表现出色,但其在实时控制中的直接部署受到延迟和安全约束等因素的阻碍。为解决这些问题,一些研究人员提出了将高层语言理解与下游模块结合的混合方法。尽管有这些创新,实现LLM引导与低层驾驶控制器之间的紧密可靠集成仍然是一个开放性挑战。这一差距突显了需要架构能够将用户指令转化为可行的驾驶策略,同时保持响应性和安全性。

分层决策架构

在生物学和认知科学中,快慢系统已被确认为智能组织的关键原则,主要体现在Kahneman提出的反应性系统I和深思熟虑的系统II上。受这些双重过程理论的启发,机器人学和人工智能领域的研究者探索了分层控制架构,将高频反应控制与低频战略规划分开。

在自动驾驶汽车(AVs)的背景下,快慢范式被提出以解决快速反应决策(包括避障)与更耗时的决策(包括路线规划和复杂环境解读)之间的矛盾。最近的工作利用基于学习的方法用于高层或低层模块,但很少将广泛的用户指令与真正以人为本的“慢”决策模块结合起来。通过借鉴认知科学中的既有概念并利用现代机器学习技术,分层快慢系统可以捕捉长期目标和短期安全要求,确保自动驾驶决策尊重多样且不断变化的需求。

问题建模

我们将自动驾驶任务建模为一个部分可观测马尔可夫决策过程(POMDP),表示为元组 ⟨S, A, O, P, R, γ⟩。由于自动驾驶车辆可能无法完全了解远处或被遮挡的车辆信息,智能体接收观测值 o ∈ O,该观测值仅包含一定范围内最相关车辆的信息。

环境转移函数   确定系统在给定动作   的情况下如何从状态   演变为  。由于智能体的决策过程基于部分观测,我们专注于设计一种策略  ,以最大化预期回报:

其中   是初始状态分布,  是时间范围,  是折扣因子,  表示奖励函数。

1) 动作空间

在本工作中,高层动作决策被建模为离散命令,而低层PID控制器执行所选命令以调节车辆的连续控制输入。设   表示可用的高层动作集合:

通过将高层决策与低层PID控制器分离,我们可以简化策略学习,同时确保稳定且可解释的控制。

2) 观测空间

在每个时间步  ,智能体接收观测值  ,包括自动驾驶车辆自身状态及其周围最多   辆车辆的状态。我们将此观测表示为特征矩阵  ,其中每一行对应一辆车辆。  的每一行具有固定维度 

其中   和 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值