基于MCTS的安全强化学习

最新推荐文章于 2025-12-17 21:00:36 发布

原创最新推荐文章于 2025-12-17 21:00:36 发布 · 672 阅读

27 ·

CC 4.0 BY-SA版权

文章标签：

#强化学习 # 自动驾驶 # MCTS # 安全探索 # 决策

使用蒙特卡洛树搜索的自动驾驶汽车安全强化学习

摘要

强化学习在自动驾驶领域的决策能力已逐渐显现。强化学习通过与环境交互，学习如何将状态映射到动作，以最大化长期奖励。在有限的交互次数内，学习者会根据设计好的奖励函数获得合适的驾驶策略。然而，在传统强化学习的训练过程中会出现大量不安全行为。本文提出一种结合RL智能体与蒙特卡洛树搜索算法的基于强化学习的方法，以减少不安全行为。

所提出的安全强化学习框架主要包含两个模块：风险状态估计模块和安全策略搜索模块。当风险状态估计模块利用当前状态信息及RL智能体输出的动作预测未来状态存在风险时，基于MCTS的安全策略搜索模块将被激活，通过为风险动作增加额外奖励来确保更安全的探索。我们在多个随机超车场景中测试了该方法，结果表明其相较于传统强化学习具有更快的收敛速度和更安全的行为表现。

索引术语

强化学习，自动驾驶汽车，蒙特卡洛树搜索，决策。

一、引言

强化学习（RL）已成功应用于国际象棋、[1], Atari游戏[2]等序列决策问题。将强化学习与深度学习相结合的深度强化学习（DRL）具备处理连续空间实际问题的能力。许多研究人员已将深度强化学习（DRL）方法应用于自动驾驶决策问题[3],[4]。由于无模型强化学习算法的核心思想是通过与环境交互来改进策略，因此其对先验知识的需求较少[5]。

尽管无模型强化学习方法在某些领域取得了巨大成功，但由于随机探索引发的安全性问题，对于现实世界中的安全性关键应用（例如碰撞避免）而言，这仍然是一个重大难题。为了克服这些缺点，强化学习中出现了一个名为安全强化学习的子领域逐渐引起了研究人员的关注。其目的是在尊重安全约束的前提下，最大化期望回报。以往的安全强化学习主要包含两部分：探索过程的转换和优化准则[6]。

对于安全强化学习中的第一种方法，在转换探索过程时会考虑额外的变量，例如风险。显然，可以使用近似函数（如神经网络[7],高斯过程[8],[9],等）利用示范来计算状态和动作对的附加信息。这类方法存在与模仿学习相同的缺点。另一种方法不是使用示范，而是通过提供交通规则、基于基本规则的驾驶模型等先验知识，预先屏蔽不安全动作，并以安全动作为替代[7],[10]–[12]。然而，该方法仍然存在缺陷，即当出现意外状态时，智能体无法知道应屏蔽哪些动作。

在基于优化准则的安全强化学习中，一种方法是在准则中添加约束，即智能体在最大化期望回报的同时，保持某些值低于设计边界[13],[14]。该约束准则应用于约束马尔可夫决策过程（CMDP），但在实际学习过程中，其可行性往往难以保证。在许多研究中，优化准则被建模为原始回报与风险的组合，其中风险可以有多种形式。S.埃尔温和Seymour提出了一种MaxPain算法，该算法使用两个Q值分别独立估计动作价值和风险价值，然后进行线性组合以实现最终优化[15]。期望回报的方差也可以加入优化准则中，因为较高的方差意味着更大的不稳定性，换句话说，风险更高[16]。

在自动驾驶车辆决策领域，传统基于规则的方法由于其简单结构、高实用性和技术成熟度而被最广泛使用。最著名的基于规则的决策系统可以在DARPA城市挑战赛中找到，其中采用有限状态机来决定如何在城市场景[17],[18]中驾驶。然而，随着驾驶场景复杂性的迅速增加以及来自不完美感知系统的不确定性，传统基于规则的系统无法应对这些问题，除非设计出完美的规则以应对所有场景，即使存在传感器误差也能实施，但目前这是不可能的。模仿学习常被用于从专家示范中学习策略，以实现更快速、更安全的学习。

自动驾驶[19]–[21]。然而，专家示范需要预先收集大量数据，耗时较长。此外，当遇到没有相应示范可供模仿的突发情况时，该方法也无法应对。

强化学习方法通过智能体与环境之间的交互来训练智能体，而无需大量数据。以深度Q网络（DQN）为代表的无模型算法，可以在不需要手工设计特征或环境模型的情况下被训练用于执行变道操作[22],[23]。伯克利的研究人员采用多种强化学习方法，在具有挑战性的环岛场景下，利用鸟瞰视角输入表示来解决决策问题[24]。RL智能体还可以计算转向和动作等连续输出，以完成车道保持[25],车道变换[26],等任务。强化学习方法的成功源于试错学习，但这也导致了传统强化学习方法的缺点：在探索过程中，无论动作是否安全，RL智能体都可能选择，从而导致不安全状态以及较低的采样效率。

本文提出了一种结合无模型强化学习算法与蒙特卡洛树搜索(MCTS)方法的安全强化学习框架，以提高安全性和探索效率。安全强化学习中的安全探索模块包含两个部分：状态估计模块和安全策略搜索模块。当状态估计模块通过一步预测判定某状态‐动作对存在风险时，将激活安全策略搜索模块，利用蒙特卡洛树搜索(MCTS)寻找更安全的动作。该方法在搜索安全动作时无需标注数据或先验专家知识。所提出的安全强化学习框架在双车道超车场景中进行了训练和测试。

II. 背景

A. 深度Q学习

强化学习的思想源于自然学习过程。在与环境的交互过程中，智能体通过探索哪些动作能获得最多奖励，逐步改进其动作策略。强化学习的基本数学框架是马尔可夫决策过程（MDP）。一个MDP由元组(S,A, P, R,γ)定义，其中S是状态空间，A是有限的动作空间，R是奖励函数，γ ∈[0, 1]是折扣因子，P是表示MDP动态特性的状态转移概率。Q学习用于估计在策略π下于状态s执行动作a时的期望奖励。这类对状态和动作对的估计称为Q值，可以通过贝尔曼最优方程，将当前Q值估计向观测到的奖励以及后继状态的Q值进行迭代更新来学习。

$$
Q(s, a)= Q(s, a)+ α(r+ γ \max_{a’} Q(s’, a’) − Q(s, a))
$$

深度Q学习（DQN）通过使用深度神经网络进行函数逼近，解决了高维状态空间的估计问题。Mnih等人首次提出了经验回放记忆和目标网络，以解决使用非线性函数逼近器时的不稳定问题。

用于表示Q值[2]。经验回放记忆$D_t={e_1, e_2,…，e_t}$是一个存储序列信息样本$e_t=(s_t, a_t, r_t, s_{t+1})$的池。它可以消除观测序列中的相关性，从而显著提升性能。目标网络是主网络的一个具有相同结构的历史副本。目标网络的参数每隔t步从主网络复制一次，并在其余时间保持固定。

DQN算法使用从池中以特定采样方式抽取的经验样本（或小批量）$(s, a, s’, r)∼U(D)$，例如。该算法在第i次迭代时使用的损失函数为:

$$
L_i(\theta)= E_{(s,a,r,s’)−U(D)}[(r+γ \max_{a’} Q(s’, a’; \theta^-)−Q(s, a; \theta))^2]
$$

其中γ是折扣因子，θ是主网络的参数，$\theta^-$是用于在目标网络中计算目标Q值的参数。

Q值网络的参数θ通过以下梯度进行更新：

$$
\theta_{i+1}= \theta_i+ α∇_\theta L_i(\theta)
$$

B. 长短期记忆

长短期记忆（LSTM）是一种循环神经网络(RNN)，专门用于解决RNN的长期依赖问题[27]。由于其特有的LSTM结构，它在处理时间序列数据方面具有强大能力，并在近年来得到广泛应用。一个标准LSTM块包含三个门（输入门、遗忘门和输出门)，用于控制数据流，决定哪些信息需要长期记住，哪些信息需要被遗忘。

C. 深度循环Q学习

深度循环Q学习（DRQN）是一种基于深度Q学习的无模型强化学习算法。该算法的关键在于通过将深度Q网络中的第一个全连接层替换为长短期记忆（LSTM）层[28]，从而引入递归结构。它采用与深度Q网络相同的方法来更新神经网络的参数。得益于LSTM强大的序列问题处理能力，DRQN算法能够更好地应对不完整和噪声状态信息。

D. 蒙特卡洛树搜索

蒙特卡洛树搜索(MCTS)是一种结合了随机采样的通用性的基于树的搜索方法[29],[30]。在AlphaGo中取得突破性表现后，它在解决穷举搜索问题中寻找最优策略方面展现了强大的能力[1]。搜索树会不断迭代生成，直到达到预定义限制，其中包含大量对应于状态和动作的节点。通过多次模拟来估计节点值。树策略用于平衡探索与利用问题，并找到树中最有价值的节点。

示意图0

在基本的MCTS算法中，每次迭代包含四个步骤：选择、扩展、仿真和反向传播。MCTS从根节点开始，基于初始状态的信息，在选择过程中使用树策略递归地选择最有价值的可扩展节点。然后通过可用的动作添加子节点以扩展树。新增节点的价值通过仿真和反向传播过程进行估计。根据默认策略执行一次仿真，直到节点终止并得到结果。该结果将被反向传播，并更新所选节点的价值。

蒙特卡洛树搜索中使用最广泛的选则函数是上限置信区间树算法（UCT），由科奇斯和塞佩什瓦里提出，其思想是将树搜索与赌博机的上置信界1选择策略相结合[31]。

建议在仍有未探索的动作时选择未探索的动作，否则选择使UCT函数最大化的动作:

$$
UCT(a)= v(s, a)+ C\sqrt{\frac{\ln N(s)}{n(s, a)}}
$$

其中，$n(s,a)$表示在状态s下选择动作a的次数，且$N(s) = \sum_a n(s,a)$。探索与利用的权衡常数由C表示。$v(s,a)$是节点(s,a)的估计价值。

III. 方法

本节主要描述自动驾驶汽车换道决策问题的马尔可夫决策过程建模以及安全强化学习方法。

A. 安全强化学习

为了避免传统强化学习因随机探索而产生的缺陷，安全强化学习方法在蒙特卡洛树搜索(MCTS)的基础上增加了安全探索模块。该安全探索模块由两部分组成：风险状态估计模块和基于蒙特卡洛树搜索的安全策略搜索模块。所提出的安全强化学习方法的框架如图2所示。当RL智能体生成的动作$a_{RL}$不安全，并且与安全策略搜索模块中使用MCTS算法得到的搜索动作$a_{SE}$不同时，安全探索模块计算的附加奖励$r_{mcts}$将被添加到原始目标驱动奖励$r_{rl}$中。

示意图1

1) 风险状态估计

根据RL智能体的动作和当前状态进行一步预测，然后基于车头间距$d_{gap}$和碰撞时间（TTC）$t_{ttc}$来估计风险。在低速时使用安全车头间距$d_{safe_gap} = v_{ego} \cdot t_{safe_thw}$作为安全性限制，其中我们将$t_{safe_thw} = 1s$设为此值。安全TTC $t_{safe_ttc} = 1.5s$主要用于高速紧急情况下的碰撞安全限值[32]。

$$
d_{gap} = x_{front} - x_{ego} \geq d_{safe_gap}
$$
$$
t_{ttc} = \frac{d_{gap}}{v_{ego} - v_{front}} \geq t_{safe_ttc} = 1.5s
$$

其中$x_{front}, x_{ego}$分别为前车和自动驾驶汽车的位置。而$v_{front}, v_{ego}$分别为它们的速度。

如果预测状态不满足车头间距和TTC限制，安全策略搜索模块将启动以搜索相对更安全的动作。蒙特卡洛树搜索算法根据节点的UCT值选择最佳动作$a_{SE}$。

2) 安全策略搜索

为了获得相对更安全的行为，安全策略搜索模块中采用了MCTS算法。通过仿真，在树中创建由状态、动作和奖励组成的节点，并根据UCT值选择最佳节点。

本文中，安全策略搜索模块旨在双车道超车场景中寻找一种驾驶策略，以避免碰撞甚至危险行为。我们在蒙特卡洛树搜索的仿真过程中设计了更严格的约束条件。

示意图2

更小的时间间隔$t_{min_gap} = 0.5$和碰撞时间$t_{min_ttc} = 0.5$，与风险估计模块中的相比。当自动驾驶汽车不满足最小安全约束时，即处于危险状态空间（如图3中红色区域所示），仿真将停止，并返回一个负的终止奖励用于后续的反向传播。

为不同的仿真终止设置了多个奖励函数：

低速奖励 ：在此场景下，以低于前车的速度行驶可能是安全的，但这对于本文所研究的安全超车目的没有意义。因此，当自动驾驶汽车的平均速度低于3m/s时，蒙特卡洛树搜索中的仿真将被中断，并返回一个负奖励$r_{low} = -2$。

最小安全奖励 ：由碰撞时间和车头时距组成的最小安全约束用于在仿真中提前停止，而非发生碰撞。当仿真因不满足最小安全约束而停止时，将获得如下负奖励:

$$
r_m=
\begin{cases}
-2 & \text{if } t_{gap} \leq t_{min_gap} \
\frac{1}{t_{ttc}} & \text{if } t_{ttc} \leq t_{min_ttc}
\end{cases}
$$

超车奖励 ：只有当自动驾驶汽车在不违反最小安全约束的情况下成功超车时，才会获得唯一的正向奖励$r_o = 10$。

B. MDP建模

1) 状态空间

状态空间S表示自动驾驶汽车自身及其周围车辆的驾驶信息特征。本文仅考虑纵向距离，且自动驾驶汽车的最大感知范围为150米。状态空间定义如下:

$$
s_t=[\chi_t, \chi_{t-1}, \chi_{t-2}, \chi_{t-3}]
$$
$$
\chi_t=(s_e, s_{ov}) \quad s_e=(v_e, Road)
$$
$$
s_{ov}=(\Delta x_i, v_i)_{i=1,2,......,6}
$$

其中$\chi_t$是时间t时环境的抽象特征。本文使用四个连续时间步特征作为DRQN算法的状态输入$s_t$。$s_e$和$s_{ov}$分别是自动驾驶车辆特征和周围车辆的特征。$v_e$是自动驾驶车辆速度，Road是当前车道ID。$s_{ov}$包含6个方向上所有周围车辆的信息，包括位置和速度信息。我们假设，若无车辆或车辆超出感知范围150米，则默认相对距离设为150米，相对速度设为−1m/s。

2) 动作空间

动作空间A定义如下:

$$
a=(\ddot{x}, LC)
$$

其中$\ddot{x}$表示纵向加速度。我们选择$(-3,-1,0, 1,2)$作为离散动作值。LC是高层变道指令。当自动驾驶汽车接收到高层指令时，轨迹规划器和控制模块等底层控制器将计算用于车道变换的速度和车头间距。本文中，下一个期望位置可通过具有恒定加速度纵向动力学计算得出。

$$
\dot{x}(t+\Delta t)= \dot{x}(t)+ \ddot{x}(t)\Delta t
$$
$$
x(t+\Delta t)= \frac{1}{2} \ddot{x}(t)\Delta t^2+ \dot{x}(t)\Delta t+ x(t)
$$

如果选择动作LC，自动驾驶汽车将在2.5s∼3s内完成变道行为。同时，它将以恒定速度$\dot{x}(t)$继续行驶。

3) 多目标奖励函数

本仿真的主要目的是使自动驾驶汽车能够在无碰撞的情况下超越前方慢速车辆，提高驾驶效率，同时确保一定程度的安全性。奖励函数由两部分组成：目的驱动奖励$r_{rl}$和安全探索奖励$r_{mcts}$。我们将风险相关奖励函数融入原始奖励函数中，以使智能体更安全。最终奖励为$r= r_{rl}+r_{mcts}$。

目的驱动奖励$r_{rl}$由三部分组成：效率相关、安全相关和终止相关：

a) 效率相关奖励 ：道路上允许的最大速度设定为15m/s，同时也设为仿真中的期望速度。使用线性函数鼓励自动驾驶汽车采用更高的行驶速度:

$$
R_v= α_1(v_e −15)
$$

其中$α ∈ R^+$为奖励调整系数，用于调整奖励函数对策略的重要程度权重。

b) 安全相关奖励 ：安全相关奖励主要基于TTC指标。并添加了相对较小的附加惩罚项$C_{op}$，以防止自动驾驶汽车长时间处于对向车道:

$$
R_s= α_2\min(0, t_{ttc} −2.7)+ C_{op}s_{ov}
$$
$$
C_{op}=
\begin{cases}
-0.1 & \text{if in opposite lane} \
0 & \text{otherwise}
\end{cases}
$$

c) 终止相关奖励 ：当发生碰撞或超车时会出现终止状态，仿真结束。将根据不同的终止状态给予相应的奖励

$$
R_t=
\begin{cases}
10 & \text{if terminal= overtake} \
-10 & \text{if terminal= collision} \
0 & \text{otherwise}
\end{cases}
$$

最终的面向目标的奖励函数是上述三种奖励的加权和。权重系数需要根据实际研究目的进行设计，并在测试中进行微调。

安全探索奖励$r_{mcts}$是一个固定的负值，除非在一步预测后没有风险，或者RL智能体计算出的动作与来自安全探索模块的动作相同。

$$
r_{mcts}(a_{RL}, a_{SE})=
\begin{cases}
0 & \text{no risk or } a_{RL}= a_{SE} \
-0.5 & \text{otherwise}
\end{cases}
$$

其中$a_{RL}$是由RL智能体计算出的动作，而$a_{SE}$是由安全探索模块计算出的动作。

四、实现与结果

A. 仿真场景

超车是日常驾驶中最具挑战性的行为之一。本文在SUMO构建的仿真场景中测试了所提出的安全强化学习方法。自动驾驶汽车与另外三辆普通车辆被设置在一条双车道道路上，如图4所示。慢速车辆位于自动驾驶汽车前方同一车道内，另外两辆车辆则在对向车道行驶。每次仿真中的车辆间距均为随机生成。自动驾驶汽车需要在考虑对向车道车辆驾驶条件的情况下，完成对前方慢速车辆的超车。

示意图3

绿色汽车Auto由具有恒定初始速度的安全强化学习方法控制。红色车辆Vehicle1始终保持随机生成的低速。另外两辆黄色车辆以随机初始速度在对向车道行驶，其驾驶策略基于智能驾驶员模型（IDM）[33]。IDM纵向运动控制策略是速度$v$、间距$s$以及与前导车辆的速度差$\Delta v$的连续函数：

$$
\dot{v}= a_{max}\left[1 -\left( \frac{v}{v_0} \right)^{\delta} -\left(\frac{s^{*}(v,\Delta v)}{s} \right)^2 \right]
$$

其中，$a_{max}= 3m/s^2$ 是普通车辆的最大加速度，$\delta$为加速度指数，$v_0= 15m/s$是期望巡航速度。$\left(s^{ }(v,\Delta v)/s\right)^2$ 表示期望最小间距$s^{ }$与实际间距$s$之间的比值，该比值决定了当前车与前车距离过近时的刹车倾向。而期望最小间距$s^{*}$是自身速度和速度差的函数，表达式为:

$$
s^{*}(v,\Delta v)= s_0+ \max\left(0, v T + \frac{v \Delta v}{2\sqrt{a \cdot b}}\right)
$$

其中$T$为安全时间车头间距，用于间隙控制。

表I 双车道场景参数
参数
—
道路长度
车道宽度
仿真步长
自动驾驶汽车最大速度
前方慢车速度范围
对向车辆速度范围

表II 所提出的安全强化学习中使用的参数
参数
—
DRQN网络隐藏层单元数
LSTM序列长度
折扣因子 $\gamma$
学习率 $\alpha$
经验回放缓冲区大小
目标网络更新周期
MCTS最大迭代次数
安全探索奖励 $r_{mcts}$

除自动驾驶汽车Auto外，其他车辆在仿真过程中不进行变道。仿真在发生碰撞、自动驾驶汽车长时间处于低速行驶（无效仿真结果）或成功超车前方车辆后结束。仿真步长设计为0.5s。仿真过程中的具体参数见表I。

B. 结果

首先，我们在双车道场景中通过随机初始化对安全强化学习智能体进行10000个回合的训练。本文所使用的训练参数见表II。仿真过程中周围车辆的信息通过SUMO平台的车联网通信系统获取，无延迟。更大的迭代次数将使MCTS算法获得更高的性能。本文综合考虑计算效率和可靠性，将安全探索模块中MCTS算法的最大迭代次数设置为40。

此外，将传统的基于DRQN的换道模型和基于规则的MOBIL方法[34]作为基准方法，并在随机双车道场景中进行共同测试。公式(16)解释了MOBIL模型如何决定何时进行换道:

$$
\tilde{a} c - a_c+ p(\tilde{a}_n - a_n+ \tilde{a}_o - a_o)> \Delta a {thread}
$$

其中，$a_c$和$\tilde{a} c$分别是主车在变道前和变道后的加速度。$n$、$o$表示新后车和原后车。而$p$称为礼貌因子，用于确定这些车辆对变道决策的影响程度。本文中，我们将礼貌因子$P= 0.2$，变道阈值设为$\Delta a {thread}= 0.1m/s^2$。

示意图4

示意图5

图5显示了安全强化学习和DRQN的奖励曲线。安全强化学习与DRQN的对比表明，两种方法在数万轮次训练中均能收敛到正向奖励。然而，通过添加基于MCTS的安全探索模块，安全强化学习智能体具有更快的收敛速度和更小的方差。训练过程中的碰撞次数如图6所示。显然，该安全强化学习方法在试错学习期间具有更低的碰撞率。额外的负向安全探索奖励有效降低了风险行为发生的概率。

这里我们以训练了1000轮次后的安全强化学习智能体为例，展示安全探索模块的工作原理。

表III 测试中不同方法的比较
方法
—
安全强化学习
DRQN
MOBIL

绿色自动驾驶汽车以11m/s的速度跟随前方速度为7.9 m/s的红色车辆行驶，两者间距为$s= 12m$。根据当前状态以及强化学习代理输出的加速度动作$a_{RL}= 1m/s^2$（绿色箭头），风险估计模块通过匀加速运动学模型可推算出下一状态，且该状态为风险状态。安全策略搜索模块计算出一个不同的变道动作$a_{SE}$（黄色箭头）。两种驾驶策略的差异导致产生负向安全探索奖励，从而在后续训练中降低该状态下选择加速度动作的可能性。

示意图6

最后，训练好的超车模型将在设计的驾驶场景中进行300轮次测试。我们收集了测试期间所有的TTC和时间间隔信息。此外，还将NGSIM人类驾驶轨迹作为对比。该数据集于2005年通过多个高架摄像头对高速公路路段进行观测采集得到，数据覆盖三个15分钟的时段，包含约5000辆车的轨迹。使用视觉跟踪技术以10Hz的频率从图像数据中提取车辆轨迹[35]。计算了NGSIM数据中的TTC和时间间隔值。时间间隔的分布在图8中可以找到。

安全强化学习方法在时间间隔测试结果上表现出更集中的分布，大部分处于相对安全的(1, 4)范围内。然而，DRQN方法有2.19%的结果落在(0, 1)区间，NGSIM数据中有3.6%，这对驾驶而言是危险的。从图9中TTC的分布也可得出相同结论。根据Van研究中提出的1.5秒经验安全TTC值[36]，DRQN方法风险更高。DRQN方法的TTC测试数据中有4.77%位于0秒到1.5秒之间，NGSIM数据中为1.24%，而安全强化学习方法为0%。

示意图7

示意图8

为了展示测试过程中的驾驶效率，图10展示了速度分布情况。我们在超车场景中将15米/秒设为最大速度。由安全强化学习控制的自动驾驶汽车相比DRQN方法控制的车辆，更有可能达到限速最大速度。

示意图9

为了更好地进行比较，还测试了基于规则的MOBIL变道方法，以展示安全强化学习方法的性能。超车率、碰撞次数和自动驾驶车辆的平均速度被选为仿真结果的性能指标，其中自动驾驶车辆的平均速度仅针对成功超车的情况进行计算。从表III的测试结果可以看出，安全强化学习方法获得了最高的超车成功率，而传统的基于规则的MOBIL变道模型的超车率最低。由于道路长度和时间有限，驾驶安全性可以通过碰撞次数来推断，其中MOBIL和安全强化学习方法均表现出最佳性能，碰撞次数为0。然而，DRQN方法在经过10000个回合的训练后，安全性仍不够理想，这是由于其训练效率较低所致。在驾驶效率方面，我们采用平均速度作为衡量指标，安全强化学习方法在此项表现最优。在所有这三种方法中，与MOBIL模型相比速度提高了3.97%，与DRQN智能体相比提高了4.63%。

五、结论

本文针对双车道超车场景的决策问题，提出了一种安全强化学习算法。该算法将传统强化学习算法与基于搜索的蒙特卡洛树搜索算法相结合，并对可能涉及危险驾驶行为的动作增加额外的负奖励，从而加快了算法的收敛速度。

将安全强化学习算法与基于规则的MOBIL换道模型以及基于传统强化学习算法的决策模型进行比较，可以看出，在相同训练回合数下，所提出的安全强化学习方法具有更快的收敛速度、更高的回报以及更好的超车成功率。与基于规则的MOBIL换道模型相比，驾驶效率和对向车道占用时间均有所提升。所设计的奖励函数能够引导智能体学习我们期望的驾驶策略。在未来工作中，将考虑结合基于规则的方法和强化学习方法的组合决策系统，以做出更安全的决策并提高训练效率。