从仿真到实车!同济大学:TeLL-Drive如何用多视角验证解决路口决策“博弈”难题?

导读
本研究提出的TeLL-Drive框架通过有效融合教师引导学习与基于注意力的策略优化,成功实现了知识高效转移和稳健决策制定。实验结果显示,该框架在成功率、平均回报及实时可行性等多项评估指标上均优于传统深度强化学习方法和现有大语言模型驱动的方案。消融研究进一步验证了模型各组件的重要性,特别是注意力机制与大语言模型教师引导间的协同作用,不仅加速了策略收敛过程,亦提升了系统在多样交通条件下的安全性与适应能力。

©️【深蓝AI】编译

本文由paper一作——Chengkai Xu授权【深蓝AI】编译发布!

论文标题:TeLL-Drive: Enhancing Autonomous Driving with Teacher LLM-Guided Deep Reinforcement Learning

论文作者:Chengkai Xu, Jiaqi Liu, Shiyu Fang, Yiming Cui, Dong Chen, Peng Hang, Jian Sun

论文地址:https://arxiv.org/pdf/2502.01387

01 背景介绍

在过去十年中,自动驾驶技术取得了显著进展,正在成为一股有望彻底改变交通运输领域的变革力量。自动驾驶汽车通过提升安全性、减少交通拥堵以及提高出行便利性,正在重新定义现代交通的格局。自动驾驶系统的核心在于其实时复杂决策能力,这种决策能力需要能够与甚至超越人类驾驶员的水平。要实现如此复杂的决策过程,需要整合先进的人工智能方法,使系统能够感知、理解并对动态且往往不可预测的驾驶环境做出响应。

深度强化学习(DRL)已经成为自动驾驶系统决策的关键框架。在自动驾驶领域,DRL被用于开发车辆行为策略,例如路口导航等场景。然而,传统的DRL方法面临着一些挑战,包括数据需求量大、收敛速度慢,以及对环境理解能力有限等问题。这些限制严重影响了其在需要强适应性的动态驾驶场景中的可扩展性和效率。

同时,以GPT-4为代表的大语言模型(LLMs)在理解和生成类人文本方面展现出了非凡的能力。这些模型凭借其庞大的知识库和先进的上下文推理能力,已经被应用到自动驾驶的决策过程中。但是,将LLMs作为独立的决策代理进行实际部署时却面临着固有的挑战。具体来说,LLMs难以保证实时响应能力,并且在决策输出上存在一定的随机性,这些都是自动驾驶系统这类时间敏感且安全攸关的应用所无法容忍的限制。

为了应对这些挑战,研究团队提出了TeLL-Drive框架,该框架创新性地结合了DRL和LLMs的优势,以增强自动驾驶系统的决策能力。TeLL-Drive通过利用LLMs的上下文理解和推理能力来提升DRL过程的采样效率和质量,从而缓解了DRL和LLMs各自的固有限制。具体而言,他们开发了一个具备记忆、反思和推理能力的风险感知型LLM代理,使其能够在复杂的交通环境中实现高效且安全的决策。同时,他们设计了一个基于Actor-Critic架构的DRL代理,该代理采用混合策略来提升采样效率和质量,同时保持了强大的探索能力。

论文的主要贡献可以概括为三点:首先,提出了TeLL-Drive这一创新框架,将"教师"LLM与"学生"DRL代理相结合,整合了LLM的高层推理和知识与DRL的适应性和计算效率;其次,开发了一个具备记忆、反思和推理能力的风险感知型LLM代理,能够在动态交通环境中提供上下文相关的指导,提升驾驶安全性和效率;最后,通过多场景实验证明,TeLL-Drive在探索效率上优于标准DRL算法,并在与其他方法的对比中取得了良好的整体效果。

▲图1| LLM 老师指导 DRL 代理在复杂的交通场景中进行决策,并在探索过程中提供纠正反馈,以提高学习效率和决策准确性©️【深蓝AI】编译

02 相关工作

2.1. 面向自动驾驶决策的深度强化学习

深度强化学习在自动驾驶领域展现出强大潜力,其应用范围从车道保持到复杂的多智能体交互等多个方面。然而,这一技术仍面临两个主要挑战:首先,DRL通常需要大量的环境交互,这个过程既耗时又昂贵;其次,决策过程缺乏透明度,这使得系统在罕见或分布外场景中难以做出可靠决策。为了缓解这些问题,研究人员提出了基于人类反馈的强化学习(RLHF)方法,通过整合专家知识来加速收敛并提高策略的鲁棒性。但是,RLHF方法仍然存在局限性,主要体现在需要大量的人工标注,而且其反馈可能无法覆盖所有可能的驾驶情况。

2.2. 大语言模型在决策制定中的应用

大语言模型在各类任务中都表现出显著潜力,包括自动驾驶的高层推理。例如,LanguageMPC利用LLM的常识推理来指导模型预测控制参数的设定,而其他研究者则展示了基于LLM的推理、解释和记忆能力在驾驶决策中的应用。尽管取得这些进展,但LLM的直接部署仍面临障碍。高计算开销使得LLM难以实现安全驾驶所需的快速、一致的响应,而文本生成的随机性可能导致不可预测的行为,这在安全攸关的环境中存在风险。

2.3. 混合型强化学习-大语言模型方法

目前学术界对结合强化学习和大语言模型的研究兴趣日益增长,不过大多数工作都集中在使用强化学习来改进LLM,而非利用LLM来增强强化学习,特别是在自动驾驶领域。初步研究表明,基于LLM的推理可以提高强化学习的探索效率和学习效果。比如,有研究者引入了带有LLM驱动长期记忆的半参数化强化学习框架,有的使用LLM实现自动机器学习,还有研究者利用LLM来自动化强化学习奖励函数的设计。然而,在自动驾驶领域充分利用LLM进行环境理解和决策制定仍然是一个开放性挑战,因为现有方法缺乏一个系统的整合策略来充分发挥LLM的知识和推理能力。

03 研究问题的形式化表达

这一部分将自动驾驶决策任务形式化为一个部分可观察马尔可夫决策过程(POMDP),它由状态空间、动作空间、观察空间、状态转移函数、奖励函数和折扣因子等元素组成。系统的目标是学习一个策略,使其能够最大化期望折扣回报。这个目标可以通过寻找最优策略来实现,其中需要考虑长期和短期奖励之间的平衡。

在观察空间的设计中,系统在每个时间步会接收两部分信息:第一部分是一个矩阵,用于捕捉周围车辆的信息。这个矩阵中的每一列对应一辆车,包含了该车的特征向量,具体记录了车辆的位置坐标、速度分量和朝向信息。朝向信息通过三角函数形式编码,以确保表示的连续性和数值稳定性。第二部分则是自车状态信息。通过这两部分信息的组合,系统可以获得对驾驶环境的紧凑而信息丰富的表示。

在动作空间的设计上,研究团队选择了一种高层次的表示方式。他们的重点是利用LLM为DRL提供高层指导,而不是直接控制车辆的底层动力学。因此,动作空间包含五种基本的高层机动指令:减速、巡航、加速、左转和右转。一旦系统选择了某个高层机动指令,底层的PID控制器会负责生成相应的转向和油门命令,使车辆能够执行相应的横向和纵向运动。

这种问题形式化的设计体现了几个重要的考虑:首先,通过POMDP框架捕捉了自动驾驶决策的序贯性和不确定性特征;其次,观察空间的设计既保证了信息的完整性,又避免了维度过高带来的计算负担;最后,动作空间的分层设计则很好地契合了LLM提供高层决策指导的特点,同时保证了控制的实时性和可靠性。

04 研究方法

4.1. 框架概述

TeLL-Drive框架通过利用LLM的知识来指导DRL代理在各种交通场景中的探索和学习。通过引入策略混合机制,该框架提升了样本效率并优化了学习效果。如图2所示,框架包含两个主要组件:LLM教师和DRL学生。教师代理通过三个关键模块生成稳健的决策:决策引擎负责提供实时指导,记忆仓库存储过往经验以提供上下文,反思评估器则基于之前的表现来改进指导。而学生代理通过基于多头注意力的策略混合机制来优化教师的行动,它将自身的探索经验与LLM的知识相结合,从而提高学习效率和质量。

▲图2| TeLL-Drive 的整体概念框架,其中 DRL 学生代理由 LLM 老师指导,以便在自动驾驶中做出更好的决策©️【深蓝AI】编译

4.2. LLM教师

决策引擎:该模块首先会评估每个潜在碰撞的冲突点时间(TTCP),使用一种旋转投影方法将自车和其他交通参与者的相对运动向量投影到共享参考轴上。这个风险度量用于确定即时机动的优先级。同时,系统会从记忆仓库中检索历史驾驶场景的特征向量,通过余弦相似度找到最相似的历史场景,从而利用类似经验来指导决策。

基于这些实时和历史见解,引擎构建一个综合提示,整合了基于TTCP的风险评估、具体场景经验和交通知识。为了提高可靠性和减少幻觉,系统采用思维链方法,逐步评估碰撞严重性、短期和长期机动后果,以及更广泛的交通影响。这种结构化推理过程降低了逻辑不一致性,产生更安全和可解释的自动驾驶策略。

记忆仓库:记忆仓库作为LLM教师的动态数据库,存储和管理所有相关知识,包括先前场景、策略和结果。在生成新提示时,决策引擎会查询记忆仓库获取相关上下文,确保LLM能够立即访问历史案例和领域约束。通过选择性检索和嵌入这些元素,LLM教师能够提供更准确和更符合上下文的指导。记忆仓库会根据新遇到的场景或之前驾驶会话的反思反馈定期更新,使LLM教师能够随时间积累知识,在不同驾驶环境中实现更好的推理和持续进化。

反思评估器:这个模块通过识别风险事件并将经验教训整合到未来策略中来系统性地改进决策制定。在每次驾驶会话后,首先收集经验元组,包含状态、动作和后续状态信息。系统定义了一个风险函数来量化碰撞或其他不良结果的可能性,任何超过阈值的片段都会被标记进行进一步反思。对于被标记的片段,LLM会通过思维链推理分析风险行为序列及其原因,并提出特定领域的调整建议。这些更新后的约束和策略会被整合回记忆仓库和决策引擎的提示构建逻辑中。

4.3. DRL学生

带策略约束的Actor-Critic算法:该方法采用了actor-critic框架,同时估计状态价值函数和动作价值函数。对于给定的策略,系统通过递归方式估计这两个价值函数。算法的目标是确定能够为所有状态最大化价值函数的最优策略。在实践中,系统通过最小化均方Bellman误差来迭代学习价值函数,并通过最大化Q值来优化策略。

为了将LLM教师的示范动作整合到actor-critic框架中,并在早期探索阶段引导DRL代理的策略,研究团队引入了KL散度约束。这使得学习目标被形式化为一个带约束的优化问题,其中约束条件控制着代理策略与教师策略之间的差异程度。在训练早期,系统会保持较小的容差来强制策略接近教师的示范动作,从而加速收敛。随着训练进行,容差逐渐增大,让代理能够更多依赖自身的探索,同时仍然保留早期的指导收益。

策略蒸馏与融合:虽然教师代理提供了高层指导,但它并不直接提供动作概率或价值估计。为了弥补这一差距,研究者在学生的策略网络中嵌入了基于Transformer的自注意力机制。这个组件以数据驱动的方式近似教师的隐含策略,并将其与学生学习到的策略灵活融合。

具体来说,系统为学生和教师分别引入了两种嵌入,通过神经编码器进行处理。教师的嵌入向量被训练来近似隐含的教师策略及其对应的动作价值函数。为了整合这两种嵌入,系统采用了自注意力机制,通过可学习的投影矩阵生成查询、键和值。在多头注意力设置中,这个过程会在多个注意力头上重复,并将输出连接起来。

最后,学生使用融合后的嵌入来生成最终的策略和动作价值估计。通过联合优化自注意力参数和教师嵌入,如果有示范数据可用,系统还会引入一个辅助蒸馏损失来确保与教师决策的一致性。这种机制鼓励教师嵌入从LLM教师的示范行为中提取优秀策略,同时允许学生通过探索和奖励反馈继续学习自己的策略。

▲图3| 具有自我注意层的策略网络©️【深蓝AI】编译

05 实验及分析

5.1. 驾驶场景

研究团队使用Highway-Env和OpenAI Gym构建了一个梯度验证场景来评估模型的综合性能。为了涵盖不同复杂度的驾驶任务,他们设计了三个递减难度的异构任务系统:

1)无信号灯路口:自车需要在无信号灯路口执行受保护的左转,这要求系统能够解决冲突并选择合适的时间窗口来安全通过交叉路口。

2)高速公路汇入:自车在加速车道上运行,需要通过速度匹配和车距选择来顺畅地汇入高速公路车流。

3)四车道自适应巡航:自车需要在四条车道上精确控制车距和速度,这突出了纵向控制和持续车道保持的精确性要求。

▲图4| 实验场景©️【深蓝AI】编译

为了模拟真实场景,研究者设置了保守型、标准型和激进型三种驾驶特征,每种特征具有不同的期望速度、加速度和车距容忍度。车速遵循正态分布,并引入15%的异常速度扰动来模拟真实世界的偏差。

5.2. 实施细节

模型实现采用了一个包含两个128×128隐藏层的多层感知机作为策略网络,使用两个维度为128的自注意力头来融合学生和教师的表示。折扣因子设为0.99,学习率为5×10-4。每个模型至少训练10万步,每500步进行一次评估。系统使用GPT-4o-mini作为LLM骨干网络,它在前10%的训练步骤中作为教师代理,之后逐渐放松约束以鼓励独立探索。实验在配备英特尔i7-14700K CPU、NVIDIA GeForce RTX 4080 SUPER GPU和32GB RAM的平台上运行。

5.3. 性能评估

与基线方法的比较:研究团队将他们的方法与四种算法进行了对比:基于价值的DQN、基于策略梯度的A2C、基于序列记忆的RecurrentPPO,以及当前最先进的基于LLM的方法Dilu。在无信号灯路口场景中,他们的模型在初始训练阶段快速改进,并收敛到最高的最终回报。在高速公路汇入场景中,他们的方法在早期就达到高回报,并在约5万步后稳定在接近最优的表现。在四车道场景中,所有方法都显示出快速的早期增益,但在最终回报和稳定性上存在显著差异。

▲图5| 该模型与传统DRL训练结果的性能比较©️【深蓝AI】编译

通过表格数据可以看到,在所有场景中,他们的方法都达到了最高的成功率:路口场景88%、汇入场景91%、高速公路场景100%。尽管Dilu在速度和安全边界上优于传统DRL方法,但其延长的推理时间限制了在线部署可能性。

▲表1| 多场景下不同方法安全性、效率、实时性测试结果对比©️【深蓝AI】编译

消融研究:为了评估各个组件的影响,研究团队对比了三个版本:原始PPO(V-PPO)、基于注意力的PPO(A-PPO)和基于LLM引导的注意力PPO(LA-PPO)。实验结果显示,LA-PPO相比其他两个版本展现出更快的收敛速度和更高的最终回报,表明了更好的稳定性和鲁棒性。特别是在无信号灯路口和高速公路汇入这样更具挑战性的场景中,LA-PPO能够快速达到更高的回报并在整个训练过程中保持优势。虽然在相对简单的四车道自适应巡航任务中,所有方法最终都收敛到相似的回报水平,但LA-PPO在收敛速度和峰值性能上仍然略胜一筹。这些观察结果证实了将LLM引导与注意力机制相结合能够产生更有效的教师知识转移和更好的策略学习效果。

▲图6| 消融实验训练过程中的性能结果比较©️【深蓝AI】编译

教师-学生比较:研究者进一步检验了LLM教师和DRL学生在各个场景中的成功率。结果显示,学生在所有任务中都超越了教师的表现。这一现象说明,虽然LLM引导有助于早期学习的快速进展,但持续的环境交互使得学生能够改进并最终超越教师的性能。这个发现突出了教师-学生范式在自动驾驶策略学习中的优势。

▲图7| 教师代理和学生智能体的测试成功率结果比较©️【深蓝AI】编译

案例分析:为了展示模型在实际场景中的决策和行为模式,研究团队展示了三个代表性案例:

1.在无信号灯路口场景中,代理在第4步减速让行,并在第12步检测到对向车辆时再次减速,展现了谨慎的决策能力。

2.在高速公路汇入场景中,代理先加速,然后短暂制动以保持安全跟车距离,最后在间隙足够时加速完成汇入,体现了复杂的速度控制策略。

3.在密集交通流场景中,代理能够持续调整速度以在车流扰动下维持安全车距,显示了对动态环境的良好适应能力。

▲图8| TeLL-Drive 在三种场景中的测试用例性能结果 (a) 无信号交叉口、(b) 高速匝道合并、(c) 四车道自适应巡航,其中绿色代表由TeLL-Drive引导的AV,蓝色代表HDV©️【深蓝AI】编译

06 车辆在环实验

6.1. 虚实融合实验平台

为了进一步评估TeLL-Drive的鲁棒性和实时性能,研究团队开展了结合虚拟和实际测试的车辆在环实验。研究团队开发了一个融合平台,将虚拟交通仿真与实际车辆硬件相结合,以评估智能驾驶功能在动态复杂交通环境中的表现。这种实验设置使得系统能够在虚拟和实际环境中测试自动驾驶决策,包括具有潜在安全隐患的场景。

该虚实融合平台主要包含两个核心组件:自动驾驶车辆硬件和交通流仿真软件。如实验图所示,交通流仿真软件生成虚拟交通环境,提供与自动驾驶车辆传感器采集的实时数据进行交互的背景交通数据。这些传感器收集实时环境信息,然后通过数据融合过程与仿真交通数据结合。这种融合后的感知信息被传输到规划控制单元,用于生成车辆的运动轨迹。最终的车辆轨迹会反馈到仿真软件中,实现自动驾驶车辆与虚拟交通流之间的交互。

在这项实验中,经TeLL-Drive框架训练的智能体作为自动驾驶车辆的决策算法。仿真车辆使用TESSNG运行,这是一款高级微观仿真软件,能够在复杂交通场景中详细模拟车辆动力学。实验在同济大学自动驾驶智慧城进行,选择了复杂路口的非保护左转作为测试场景。作为在仿真实验中成功率最低的场景,这个场景具有内在的安全风险,需要在动态环境中进行精确的决策。通过整合高精地图、精确时序定位和全要素数字化,实现了实际世界和虚拟世界的完全同步,确保测试过程中两个环境的同步性。这种车辆在环的设置为在实时、动态驾驶场景中评估TeLL-Drive的性能提供了全面的平台。

▲图9|基于同济智慧小镇搭建的虚拟现实融合实验平台,实现虚拟与现实世界的完全同步,自动驾驶车辆采用TeLL-Dirve决策算法,虚拟车辆采用TESSNG仿真运算©️【深蓝AI】编译

6.2. 案例分析

研究团队在虚实融合平台上进行了实车实验,以评估TeLL-Drive框架的性能。分析了两个具有代表性的案例,每个案例都从多个视角进行记录,包括虚拟孪生平台视角、无人机鸟瞰视角、跟车视角、路侧视角和车内视角。这些多角度的观察使得团队能够对算法在不同场景下的表现进行全面分析。

在案例1中,配备TeLL-Drive的自动驾驶车辆从静止状态开始,加速驶向路口。当接近停车线时,车辆减速以创造足够的观察和决策空间,增强对周围交通状况的评估能力。在第7秒时,车辆遇到一辆对向车辆。评估情况后,车辆在第12秒进一步减速以避让。待对向车辆通过后,自动驾驶车辆恢复加速,并在第15秒驶向路口出口。为了与前车保持安全距离,系统进行自适应的加减速调节,确保安全性和交通效率。在这个案例中,虽然自动驾驶车辆是最后离开路口的,但整个操作过程安全且高效。

在案例2中,自动驾驶车辆在进入路口前采取了类似的行动。然而,在第6秒时,车辆观察到路口内车辆较少,判断可以优先通过,于是加速。在第8秒时,左侧出现一辆接近的车辆,引发了交互。在两车之间经过短暂的强交互后,仿真车辆决定减速停车,而自动驾驶车辆继续优先通过,成功穿越路口。

这两个案例展示了TeLL-Drive框架在实车部署时的鲁棒性和可靠性。系统能够有效适应动态交通场景,确保在复杂环境中的安全和高效决策。TeLL-Drive处理合作性和竞争性交互的能力,同时保持安全和交通流动性,凸显了其在实际自动驾驶应用中的潜力。

▲图10|基于虚拟现实融合实验平台的实车在环实验©️【深蓝AI】编译

07 总结

提出的TeLL-Drive框架成功地将教师引导学习与基于注意力的策略优化相结合,实现了知识的高效转移和稳健的决策制定。实验结果表明,TeLL-Drive在多个评估指标上都优于传统的DRL方法和现有的基于LLM的方法,这些指标包括成功率、平均回报和实时可行性。消融研究突出了模型各个组件的重要性,特别是注意力机制和LLM教师引导之间的协同作用。这些发现证实,该方法不仅加速了策略收敛,还提升了系统在不同交通条件下的安全性和适应性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值