从试错学习到安全进化:强化学习重塑自动驾驶决策与控制

王者杯·14天创作挑战营·第8期 10w+人浏览 329人参与

目录

一、引言

二、自动驾驶任务与强化学习问题建模

2.1 自动驾驶系统架构与层次化任务划分

2.2 马尔可夫决策过程建模

2.3 状态、动作与奖励设计原则

三、强化学习基础与典型算法

3.1 值函数方法:DQN 及其变体

3.2 策略梯度与 Actor–Critic:DDPG、TD3、SAC、PPO

3.3 基于模型的强化学习与安全约束

3.4 多智能体强化学习

四、强化学习在自动驾驶关键子任务中的应用

4.1 车道保持与横向控制

4.2 路径跟踪与运动控制

4.3 变道与合流决策

4.4 行为规划与交互决策

4.5 端到端自动驾驶

五、典型工作综述与对比

5.1 代表性研究工作概览

5.2 实验环境与评价指标

5.3 性能对比与数据分析

六、多智能体强化学习与车路协同

七、关键问题与挑战

八、发展趋势与展望

九、结论


一、引言

近年来,自动驾驶技术在学术界和工业界都进入高速发展阶段,而强化学习(Reinforcement Learning,RL)因其在复杂决策问题上的自学习、自适应能力,被视为构建智能驾驶策略的重要途径。最新综述表明,RL 已经广泛渗透到自动驾驶的行为规划、运动规划以及低层控制等多个层次,成为与传统优化控制、规则系统并行的重要技术路线。(ResearchGate)

在行为规划层面,Wu 等人对近年来基于强化学习的自动驾驶行为规划研究进行了系统梳理,指出 RL 在复杂交互场景、稀疏反馈环境中表现出独特优势,尤其适合解决传统基于规则方法难以穷举的长时间尺度决策问题。(ResearchGate) 在控制层面,Kim 等人基于深度强化学习设计了面向周围车辆信息的车道保持控制器,在 CarMaker 仿真平台上实现了与传统模型控制器相当甚至更优的横向控制精度。(MDPI) 在导航与路径跟踪方面,Pérez-Gil 等人将 DQN 与 DDPG 引入 CARLA 仿真器,实现了从图像、特征向量到控制动作的多种 DRL 控制架构,并定量比较了其与 LQR 等经典控制器的性能差异。(SpringerLink)

与此同时,多智能体强化学习(Multi-Agent RL,MARL)与车路协同也逐渐成为研究热点。一系列最新综述指出,在车车交互、车路协同信号控制与车队协同等任务中,MARL 能够显式建模不同主体之间的策略博弈与协同,从而为混合交通流场景提供新的建模方式。(arXiv)

本文以“强化学习在自动驾驶中的应用综述”为主题,在介绍自动驾驶任务与 RL 问题建模基础上,系统梳理典型 RL 算法及其在车道保持、路径跟踪、变道决策、行为规划与端到端驾驶中的应用,并结合代表性工作给出真实数据的对比表格,最后总结当前存在的关键问题与未来发展趋势。

二、自动驾驶任务与强化学习问题建模

2.1 自动驾驶系统架构与层次化任务划分

主流自动驾驶系统通常采用分层架构:感知层负责环境感知与目标检测,定位与建图层提供高精度定位与环境表示,规划层进行行为与运动规划,控制层负责将规划结果转化为具体控制量。(MDPI)

从强化学习视角看,不同层次可对应不同粒度的决策问题。行为规划对应高层、长时间尺度的离散或连续动作决策,例如选择跟车、变道、超车、礼让行人等行为;运动规划与低层控制则更接近连续控制任务,如横向转向控制、纵向加减速控制或路径跟踪。(ResearchGate)

因此,RL 在自动驾驶中的应用大致可以分为三类:一是将高层行为规划直接建模为马尔可夫决策过程(MDP),通过 RL 策略在仿真中学习复杂交通交互行为;二是将路径跟踪、车道保持等控制问题建模为连续控制任务,通过深度确定性策略梯度类算法(DDPG、TD3、SAC)学习精细梯度控制策略;三是端到端方法,将感知到控制过程整体视为一个大规模 MDP,由深度网络从原始传感器输入直接输出控制动作。(百度学术)

2.2 马尔可夫决策过程建模

在自动驾驶场景中,强化学习通常采用 MDP 或部分可观测 MDP(POMDP)建模。一个典型自动驾驶 MDP 包括:状态空间、动作空间、转移动态以及奖励函数。

状态空间既可以是低维特征向量,也可以是高维传感器观测,如图像或激光雷达点云。以 CARLA 环境中的路径跟踪任务为例,Pérez-Gil 等人在部分实验中使用车辆位置与预定义路径之间的横向误差、航向误差以及目标路径点坐标构成状态向量,作为 DQN/DDPG 的输入。(SpringerLink) 在 Kim 等人的车道保持工作中,状态则由自车与周围车辆的相对距离、相对速度、相对加速度以及自车横向偏移角度等构成,强调对周围车辆运动状态的建模。(MDPI)

动作空间依任务而定。对低层控制任务,动作通常为连续的转向角、加减速或两者组合;对行为规划任务,动作可以是高层行为或轨迹原型的选择。Wu 等人的行为规划综述显示,当前研究更偏向于在行为层使用离散动作,在控制层使用连续控制,从而结合 RL 的两种决策粒度。(ResearchGate)

奖励函数设计是自动驾驶 RL 的核心难点之一。Kim 等人将奖励项分解为车道保持误差惩罚、碰撞惩罚以及转向角震荡惩罚,并通过权重调整兼顾安全性与舒适性。(MDPI) Pérez-Gil 等人在 CARLA 中则使用基于横向 RMSE、最大偏差以及是否完成路线等指标构造奖励,以鼓励轨迹高精度跟踪和稳定性。(SpringerLink)

2.3 状态、动作与奖励设计原则

结合现有工作,可以看出在自动驾驶强化学习建模中,状态、动作与奖励设计需满足三个基本原则。其一是安全性优先,状态中应包含与安全直接相关的距离、速度、碰撞标记等信息,奖励中要对碰撞、超出车道等行为给予高额惩罚。Kim 等人的车道保持工作即通过专门的碰撞状态与奖励项保证车辆在不同场景下维持车道中心。(MDPI)

其二是泛化能力,需要避免状态中引入过多环境特定变量,或对单一场景过拟合。例如 Cao 等人在路径跟踪任务中,通过随机生成多种路径曲线训练 DDPG,使策略能够适应未在训练集中出现的“八字形”曲线与复杂换道路径,从而提升泛化能力。(MDPI)

其三是可训练性与稳定性,奖励信号应在保证任务目标的前提下尽量平滑、可微且避免严重稀疏。行为规划任务往往存在稀疏奖励问题,Wu 等人指出近年来不少工作通过分层奖励设计、潜在价值函数或基于人类演示的奖励塑形缓解这一问题。(ResearchGate)

三、强化学习基础与典型算法

3.1 值函数方法:DQN 及其变体

值函数方法以估计状态或状态–动作价值为核心,通过贪心或 ε-贪心等策略从价值函数导出策略。DQN 的提出使深度网络与 Q 学习成功结合,并在 Atari 游戏中取得突破。随后研究者将 DQN 扩展到自动驾驶领域,主要应用于离散动作空间的决策任务,如有限档位加减速、离散变道决策等。(arXiv)

在 CARLA 环境中,Pérez-Gil 等人构建了 DQN-Flatten-Image、DQN-Carla-Waypoints、DQN-CNN 和 DQN-Pre-CNN 等多种结构,分别以扁平化图像、局部路径点或 CNN 特征作为输入,并在验证阶段将其与 LQR 与人工驾驶进行定量比较。结果显示,DQN-Carla-Waypoints 在 RMSE 与最长偏差上相对 DQN-CNN 更为稳定,但整体上仍弱于连续控制的 DDPG 方案。(SpringerLink)

3.2 策略梯度与 Actor–Critic:DDPG、TD3、SAC、PPO

连续控制问题是自动驾驶强化学习的主战场。DDPG 将确定性策略梯度与深度网络结合,通过 Actor–Critic 结构在连续动作空间中直接输出控制量。许多自动驾驶控制与路径跟踪工作都采用 DDPG 作为基础算法,例如 Cao 等人基于 DDPG 实现地面车辆路径跟随,Kim 等人则采用 DDPG/TD3 进行车道保持控制。(MDPI)

在 Kim 等人的研究中,作者构建了基于周围车辆信息的 DDPG 控制器,并进一步与 TD3 控制器以及纯跟踪(pure pursuit)、Stanley 和 IPG Driver 等传统控制器进行对比。结果表明,在多场景测试中,RL 控制器在横向偏差与航向误差上可达到与最优传统控制器相当甚至略优的性能。(MDPI)

TD3 与 SAC 等算法通过引入双重 Q 网络、策略延迟更新或最大熵目标,提高了训练稳定性与探索效率。在自动驾驶任务中,TD3 常被用作人类专家难以准确建模的复杂控制策略的学习器,而 SAC 则因其熵正则化特性在存在多种可行驾驶方式的开放场景中表现出更强的鲁棒性。相关比较分析可参考 RL 控制与自动驾驶综述。(arXiv)

3.3 基于模型的强化学习与安全约束

在真实车辆实验中,纯模型自由(model-free)RL 往往面临样本效率与安全性问题。为此,一些研究引入系统动力学模型、轨迹预测模型或安全约束模块形成“基于模型 + RL”的混合架构。例如基于虚拟安全笼的高速公路自动驾驶方案中,研究者利用几何安全约束构建安全区域,并在其内使用弱监督 RL 学习驾驶策略,从而在保证安全的前提下优化舒适度与效率。(MDPI)

最新 motion planning 方向的 RL 综述也强调了基于模型的 RL 在复杂动态环境下的重要性:通过学习环境动态或价值函数近似模型,可以显著减少真实交互次数,并在规划层面嵌入可验证的安全约束。(arXiv)

3.4 多智能体强化学习

在多车交互、车队控制以及交叉路口协同中,单车视角的 RL 难以捕捉系统整体行为。多智能体 RL 将每辆车、交通信号或路侧单元视为一个智能体,通过集中式训练、分布式执行等框架学习协同策略。多篇综述总结了不同 MARL 方法在协同车道合流、交叉路口通行、车队控制等任务上的应用,指出信用分配、非平稳性与训练效率是当前主要挑战。(arXiv)

四、强化学习在自动驾驶关键子任务中的应用

4.1 车道保持与横向控制

车道保持是自动驾驶的基础任务之一,目标是在不同道路几何和交通条件下保持车辆沿车道中心行驶。传统方法多采用几何控制或模型预测控制,而强化学习方法则尝试直接从环境交互中学习控制规律。

Kim 等人使用 CarMaker 仿真平台构建单车与多车场景,设计了围绕周围车辆信息的状态表示与 DDPG/TD3 控制器,并通过奖励函数同时约束横向偏移、碰撞与方向震荡。实验结果显示,RL 控制器在不同场景下能有效维持车道居中,其最大横向偏差与 RMS 误差与最优传统控制器相当。(MDPI)

Cao 等人将路径跟随视为更一般的车道保持问题,利用 DDPG 学习在随机生成路径上的转向控制策略。在测试阶段,作者选取“八字形曲线”、“换道轨迹”等路径进行评估,结果表明 RL 控制器在未见过的曲线上也能保持较小的横向误差并实现平滑转向,体现了较强的泛化能力。(MDPI)

4.2 路径跟踪与运动控制

路径跟踪任务要求车辆在给定路径上以尽可能小的横向误差与航向误差行驶。Pérez-Gil 等人在 CARLA 中构建了多种基于 DRL 的导航控制器,包括采用扁平化图像、局部路径点与 CNN 特征作为状态输入的不同代理,并引入 LQR 与人工控制作为对比。实验验证阶段,所有 RL 控制器均能完成指定路线,但在 RMSE 和最大偏差上表现各异,其中基于预处理 CNN 的 DDPG-Pre-CNN 方案在 RMSE、最大误差以及行驶时间之间取得了较好的平衡。(SpringerLink)

Cao 等人的 DDPG 路径跟随研究则更专注于连续控制的性能分析。作者在自建仿真环境中定义了多种参数化路径,通过随机起始位姿和随机路径生成机制,使 RL 控制器在训练阶段接触到丰富的轨迹形状。测试结果中,DDPG 在“八字形”、“换道”和“回到车道”等路径上的整体均方根横向误差和超调量均优于基于 PID 和反馈线性化的经典控制器,表明在非线性复杂路径上 RL 具有明显优势。(MDPI)

4.3 变道与合流决策

变道与合流场景涉及多车交互与博弈,被视为行为规划中的典型任务。Wu 等人的行为规划综述汇总了大量基于 RL 的变道决策工作,认为多数研究采用 POMDP 或多智能体 MDP 建模,通过奖励函数综合考虑效率(如车速、旅行时间)、安全性(如最小间距、碰撞风险)以及舒适性(如加速度、加加速度)。(ResearchGate)

部分工作将变道与轨迹生成绑定,通过 RL 选择轨迹模板或参数化轨迹,再调用低层控制器执行;另一些工作则直接在连续动作空间中输出纵向加速度与横向偏移。针对高速公路合流和拥堵场景,多智能体 RL 特别适合显式建模不同车辆之间的礼让与竞争关系。(arXiv)

4.4 行为规划与交互决策

在更高层次上,行为规划需要在复杂路况下权衡效率、安全与社交合规性。Wu 等人将 RL 行为规划的方法分为基于价值函数、基于策略梯度以及基于层次结构三类。许多工作使用层次 RL,将路口通行、超车、跟车等高层行为视为宏动作,而将具体轨迹生成与控制下沉到子策略中,从而在减少动作空间的同时增强策略可解释性。(ResearchGate)

在车路协同与智能交通系统中,多智能体 RL 还被用于信号控制与车队协同行驶。例如,基于 MARL 的交叉路口通行策略可以同时优化通行延迟与安全指标;基于 CAV 的车队合流控制则可通过协同奖励鼓励车辆形成高效稳定的车队结构。相关工作在 Sensors 等期刊中已有系统性综述。(MDPI)

4.5 端到端自动驾驶

端到端自动驾驶尝试从原始传感器输入(如摄像头图像)直接预测转向角和加减速命令,从而绕开传统的“感知–规划–控制”分层结构。早期工作主要集中在仿真环境,如 TORCS 中利用 DDPG、DQN 等算法实现端到端赛道驾驶。(arXiv)

在真实车辆实验方面,Riedmiller 等人较早地在 2007 年提出利用 Neural Fitted Q Iteration(NFQ)在真实车辆上学习转向任务,在短短约 20 分钟驾驶数据下实现了可行的赛道跟随控制,为 RL 在真实车辆上的应用提供了重要先例。(Academia) 此后,部分研究结合 DDPG 与单目摄像头,实现在限定试验场景下的真实车端到端车道跟随,表明 RL 在现实系统中的部署具备可行性,但对安全监控与在线调试提出了更高要求。(arXiv)

五、典型工作综述与对比

5.1 代表性研究工作概览

为了更清晰地展示强化学习在自动驾驶各子任务中的应用,本节选取几篇具有代表性的期刊与会议论文,包括:Riedmiller 等人基于 NFQ 的真实车转向学习,(Academia) El Sallab 等人提出的深度强化学习自动驾驶框架,(百度学术) Kim 等人基于周围车辆信息的车道保持 RL 控制,(MDPI) Pérez-Gil 等人基于 CARLA 的 DRL 导航控制,(SpringerLink) 以及 Cao 等人使用 DDPG 的路径跟随控制等。(MDPI)

这些工作覆盖从低层横向控制、路径跟踪到中层导航控制及真实车实验的不同层级场景,采用的算法从离散动作的 DQN 到连续控制的 DDPG、TD3 等,为分析 RL 在自动驾驶中的性能与局限提供了丰富样本。

为了便于读者整体把握,下面给出一个不含虚构信息的概览表,仅包含文献中明确给出的任务类型、环境与算法名称等离散信息。

表 1 代表性强化学习自动驾驶工作概览(信息摘自原文)

论文任务类型环境类型强化学习算法状态输入形式动作输出
Riedmiller et al., 2007 “Learning to Drive a Real Car in 20 Minutes”(Academia)赛道转向控制真实车辆(VW Passat 测试车)NFQ(Neural Fitted Q Iteration)六维连续状态,包括横向误差、航向等连续转向角
El Sallab et al., 2017 “Deep Reinforcement Learning framework for Autonomous Driving”(百度学术)多场景驾驶策略仿真(TORCS 等)DQN、DRQN 等图像+低维特征离散动作(油门、刹车、转向)
Pérez-Gil et al., 2022 “Deep reinforcement learning based control for Autonomous Vehicles in CARLA”(SpringerLink)城市场景路径跟踪与导航仿真(CARLA Town01 等)DQN、DDPG图像、路径点、驾驶特征连续油门和转向
Kim et al., 2023 “A Deep Reinforcement Learning Strategy for Surrounding Vehicles-Based Lane-Keeping Control”(MDPI)车道保持与横向控制仿真(CarMaker)DDPG、TD3周围车辆相对距离、速度、自车偏移等转向角
Cao et al., 2023 “Path following for Autonomous Ground Vehicle Using DDPG Algorithm”(MDPI)路径跟随自建仿真环境DDPG车辆位姿与参考路径误差转向角

5.2 实验环境与评价指标

从实验环境来看,大多数 RL 自动驾驶研究仍以高保真仿真平台为主,例如 CARLA、CarMaker、自建仿真环境等。仿真平台能够提供可重复、可控的环境以及丰富的传感器模拟,使 RL 能够在不中断安全的前提下进行大量交互。真实车辆实验目前仍然较少,多数停留在受控试验场或低速场景。(MDPI)

评价指标方面,不同任务采用的指标各不相同。在车道保持与路径跟踪任务中,常用的指标包括横向偏差的最大值与 RMS 误差、航向角误差、路径完成率以及行驶时间等;在行为规划与变道决策中,则更关注碰撞率、最小时距、平均车速与通过时间等。Kim 等人将车道居中性能量化为最大横向偏移与 RMS 误差,并与多种传统控制器对比。(MDPI) Pérez-Gil 等人则使用 RMSE、最大误差与单次行程时间来综合评价不同 DRL 控制器与 LQR 的差异。(SpringerLink)

5.3 性能对比与数据分析

下面根据公开论文中的定量结果,整理两张包含真实数据的对比表,所有数值均直接来自原文,不做任何改动,仅改变排版格式以便阅读。

表 2 车道居中控制方法性能比较(数据整理自 Kim et al., Sensors 2023 Table 9)(MDPI)

控制方法场景 1 最大横向偏差 (m)场景 1 RMS 误差 (m)场景 2 最大横向偏差 (m)场景 2 RMS 误差 (m)
Pure pursuit0.31540.14870.31490.1398
Stanley0.27160.11510.13080.0494
IPG Driver0.46460.23760.70950.3398
TD3(RL 控制)0.24210.09030.36480.1147
Ours(提出的 DDPG 方法)0.23870.08890.36170.1067

从表 2 可以看到,在场景 1 中,RL 控制器 TD3 和提出的方法在最大横向偏差和 RMS 误差上均明显优于 IPG Driver,且与 Stanley 控制器相当;在场景 2 中,Stanley 在最大偏差上表现最佳,但 RL 控制器在 RMS 误差方面依然保持接近甚至优于传统控制器,说明经过合理奖励设计与训练,RL 可以在保证安全和舒适的同时达到工程可用的控制精度。

Kim 等人还进一步给出了不同控制器在航向误差上的比较,结果同样显示 RL 控制器在 RMS 航向误差上可与最优传统控制方法竞争,说明 RL 在横向控制任务上已经具备与工业级控制器对标的潜力。(MDPI)

表 3 CARLA 导航任务中不同控制方法的验证指标(数据整理自 Pérez-Gil et al., 2022 Table 3)(SpringerLink)

模型RMSE (m)最大误差 (m)时间 (s)
LQR0.060.7417.4
手动驾驶(Manual Control)0.401.8022.7
DQN-Flatten-Image0.643.1527.3
DQN-Carla-Waypoints0.211.3229.3
DQN-CNN0.832.1533.3
DQN-Pre-CNN0.331.7228.2
DDPG-Flatten-Image0.151.4319.9
DDPG-Carla-Waypoints0.131.5020.6
DDPG-CNN0.752.5534.2
DDPG-Pre-CNN0.101.4123.8

从表 3 可以看出,LQR 在 RMSE 与最大误差方面仍然占据优势,但若只看 DRL 控制器内部,DDPG-Pre-CNN 与 DDPG-Carla-Waypoints 的 RMSE 均已降至 0.10–0.13 m 量级,接近甚至逼近 LQR 的水平。同时,相比 DQN 系列,DDPG 系列在大多数配置中 RMSE 更低、轨迹更平滑,说明对于连续控制任务,基于策略梯度的 DDPG 相比分段离散动作的 DQN 更适合作为自动驾驶控制器的基础算法。(SpringerLink)

结合上述两张表,可以得到若干结论。首先,在经典控制器易于设计且模型准确的任务(例如规则道路上的车道保持、路径跟踪)中,经过精心调参的 LQR、Stanley 等控制器仍然具有较强竞争力;RL 在这些任务上更多体现为“可达到同一水平”的新范式。其次,在考虑多车辆交互、复杂路径与非线性动力学时,RL 尤其是 DDPG 等连续控制算法能够在无需显式建模复杂动力学的前提下学习到高质量控制策略,其性能接近甚至优于传统控制。第三,从工程角度看,RL 模型的可扩展性与可迁移性强,一旦训练出性能稳定的控制策略,在不同车辆平台或仿真环境中复现的代价通常低于重新设计、调参传统控制器。(arXiv)

六、多智能体强化学习与车路协同

在未来的混合交通环境中,自动驾驶车辆将与大量人驾车辆、行人以及路侧基础设施共享道路资源,孤立单车的优化策略难以保证系统整体效率与安全。多智能体 RL 为建模这种多主体互动提供了自然工具。

Zhang 等人对自动驾驶中的多智能体强化学习进行了系统综述,指出 MARL 在车队行驶、协同变道、交叉路口通行、车路协同信号控制等任务中均展现出良好表现。(arXiv) Sensors 期刊上关于多智能体 RL 的综述则进一步从 CAV 视角分析了不同 MARL 架构在交通流优化和交叉路口控制中的表现,强调集中式训练与分布式执行、价值分解与信用分配等关键技术。(MDPI)

与单智能体 RL 相比,MARL 在自动驾驶场景中面临更严重的非平稳性问题:每个智能体的策略不断更新,使其他智能体感知到的环境动态随时间变化。因此,如何设计稳定的训练过程、合理的联合奖励以及高效的通信机制,是当前 MARL 在自动驾驶走向现实应用前必须解决的难题。(arXiv)

七、关键问题与挑战

尽管强化学习在自动驾驶研究中已经展现出巨大潜力,但距离大规模落地仍存在多方面挑战。

首先是样本效率与现实部署问题。大部分 RL 自动驾驶工作仍依赖仿真环境,真实车辆实验极为有限。即便在仿真中,训练一个稳定策略也往往需要数十万甚至数百万步交互,这在现实车辆上几乎不可接受。如何通过离线 RL、模仿学习、基于模型的 RL 或分布式并行仿真显著降低样本需求,是未来重点方向之一。(MDPI)

其次是安全性与可验证性。传统控制方法可以依托严格的控制理论与形式化验证工具提供安全保证,而大多数 RL 策略本质上是黑盒函数,很难直接给出安全边界。近年来出现了一些“安全 RL”“盾牌式 RL”和“虚拟安全笼”等方法,通过在策略外部引入安全监督模块或约束优化求解器,为 RL 提供运行时安全边界,但如何将这类方法系统性集成到车规级软件栈中仍有较大距离。(MDPI)

再次是泛化与鲁棒性。仿真–现实差距(sim-to-real gap)导致在仿真中表现良好的策略在真实环境中可能失效,尤其是面对传感器噪声、天气变化或人类驾驶行为不确定性时。部分工作尝试通过域随机化、对抗训练或鲁棒 RL 提升策略对未知干扰的抵抗力,但全面的鲁棒性保障仍然缺失。(MDPI)

最后是解释性与人机协同。自动驾驶系统在真实道路上需要接受监管机构与公众的审查,RL 策略的黑盒特性在事故责任认定和系统调试上都带来困难。一些研究通过层次 RL、规则约束策略或可视化价值函数来提高决策可解释性,但如何在保持高性能的同时提供足够清晰、可验证的解释仍是开放问题。(ResearchGate)

八、发展趋势与展望

综合近期的多篇综述与代表性研究,可以预见未来几年强化学习在自动驾驶中的发展将呈现以下趋势。

一是“RL + IL + 控制”的融合框架将成为主流。纯粹的 RL 在安全敏感场景中很难单独承担全部决策责任,而模仿学习可以提供良好的初始策略,经典控制器则为系统提供稳定基线。越来越多的工作开始尝试将模仿学习用于初始化 RL 策略,将 RL 用于在有限风险下微调策略,并在出现极端情况时回退到经典控制器。(MDPI)

二是任务分解与层次 RL 将在复杂交通场景中发挥更重要作用。通过在高层学习行为序列策略,在中层学习运动规划,在底层学习精细控制,可以有效减少单一策略的复杂度,并为系统提供更强的模块化与可解释性。(ResearchGate)

三是多智能体 RL 与车路协同将从仿真逐步走向实际测试道路。随着车路协同基础设施的部署与车联网技术的成熟,车辆之间以及车路之间的信息交互将更加丰富,这为 MARL 提供了实际部署的硬件基础,也为智能交通系统整体优化创造了机会。(arXiv)

四是形式化安全保证与可验证 RL 将成为工业界关注的重点。一方面需要在训练过程中引入安全约束,另一方面需要在部署后通过形式化验证、仿真测试与场景覆盖率评估等手段提供可量化的安全证据。(MDPI)

九、结论

本文围绕强化学习在自动驾驶中的应用,从任务建模、算法基础到关键子任务和典型工作,系统梳理了近年来学术界在该方向上的主要进展,并基于真实期刊与会议论文的数据给出了车道保持和 CARLA 导航任务中的性能对比表。可以看到,经过合理建模和训练的 RL 控制器在横向控制与路径跟踪任务上已经能够达到甚至接近工业级经典控制器的性能,在复杂非线性场景与多车交互任务中更展现出传统方法难以匹敌的灵活性与表达能力。

然而,从仿真走向真实道路,从实验室原型走向量产系统,强化学习仍需在样本效率、安全可靠性、泛化鲁棒性与可解释性等方面取得实质性突破。随着 RL、模仿学习、多智能体系统与形式化验证等多个方向的持续推进,可以预期未来的自动驾驶系统很可能采用“经典控制 + 学习控制 + 规则约束”深度融合的架构,在保持安全可控的前提下充分发挥强化学习在复杂决策问题上的优势。

参考文献:

[1] Riedmiller M, Montemerlo M, Dahlkamp H. Learning to drive a real car in 20 minutes[C]// Proceedings of the Frontiers in the Convergence of Bioscience and Information Technologies (FBIT 2007). IEEE, 2007: 645–650. osnascholar.ub.uni-osnabrueck.de+1

[2] El Sallab A, Abdou M, Perot E, Yogamani S. Deep Reinforcement Learning framework for Autonomous Driving[C]// IS&T Electronic Imaging, Autonomous Vehicles and Machines 2017. AVM-023, 2017: 70–76. Also available as arXiv:1704.02532. arXiv

[3] Wang S, Jia D, Weng X. Deep Reinforcement Learning for Autonomous Driving[J/OL]. arXiv:1811.11329, 2019. arXiv

[4] Pérez-Gil Ó, Izquierdo-Gil R, Barea R, López-Guillén E, Bergasa L M. Deep reinforcement learning based control for Autonomous Vehicles in CARLA[J]. Multimedia Tools and Applications, 2022, 81: 3553–3576. SpringerLink+1

[5] Cao Y, Ni K, Jiang X, et al. Path following for Autonomous Ground Vehicle Using DDPG Algorithm: A Reinforcement Learning Approach[J]. Applied Sciences, 2023, 13(11): 6847. MDPI

[6] Kim J, Park S, Kim J, Yoo J. A Deep Reinforcement Learning Strategy for Surrounding Vehicles-Based Lane-Keeping Control[J]. Sensors, 2023, 23(24): 9843. MDPI

[7] Kiran B R, Sobh I, Talpaert V, et al. Deep Reinforcement Learning for Autonomous Driving: A Survey[J/OL]. IEEE Transactions on Intelligent Transportation Systems, accepted 2021. Also available as arXiv:2002.00444. arXiv+1

[8] Wu J, Huang C, Huang H, Lv C, Wang Y, Wang F-Y. Recent advances in reinforcement learning-based autonomous driving behavior planning: A survey[J]. Transportation Research Part C: Emerging Technologies, 2024, 164: 104654. 科学网+1

[9] Li Z, Jin G, Yu R, et al. A Survey of Reinforcement Learning-Based Motion Planning for Autonomous Driving: Lessons Learned from a Driving Task Perspective[J/OL]. arXiv:2503.23650, 2025. arXiv+1

[10] Mishra A, et al. A Comprehensive Survey on Multi-Agent Reinforcement Learning for Connected and Automated Vehicles[J]. Sensors, 2023, 23(10): 4710. MDPI+1

[11] Lin Y. Reinforcement Learning Methods for Autonomous Driving: A Survey[C]// Proceedings of CONF-SEML 2025 Symposium: Machine Learning Theory and Applications. 2025: 41–52. EWA Direct

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

智算菩萨

欢迎阅读最新融合AI编程内容

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值