自动驾驶自适应鲁棒决策

最新推荐文章于 2025-12-02 20:41:06 发布

原创最新推荐文章于 2025-12-02 20:41:06 发布 · 561 阅读

25 ·

CC 4.0 BY-SA版权

文章标签：

#自适应鲁棒控制 #自动驾驶 #博弈论 #level-k推理

部署运行你感兴趣的模型镜像

高速公路中自动驾驶车辆的自适应鲁棒博弈论决策策略

摘要

在典型的交通场景中，自动驾驶车辆需要与其他人参与道路的参与者（如人工驾驶车辆、行人等）共享道路。为了成功地在交通中导航，自主智能体可以采用自适应鲁棒的k阶框架，根据其他智能体的战略思维深度对其进行分类并采取相应动作。然而，车辆动力学与其预测之间的模型失配以及对智能体的错误分类可能导致不良行为或碰撞。虽然鲁棒方法能够处理不确定性，但可能导致自动驾驶车辆行为过于保守。本文提出一种针对自动驾驶车辆的自适应鲁棒决策策略，在应对预测模型中模型失配的同时，利用驾驶员行为的置信度以获得不那么保守的动作。所提方法的有效性在高速公路驾驶场景下的变道操作中得到了验证。

关键词 —自适应鲁棒控制，自动驾驶车辆，博弈论，level‐k reasoning。

一、引言

CONNECTED 和网联自动驾驶车辆（CAVs）是一种颠覆性的交通技术，有潜力改变我们的出行习惯并带来巨大的安全效益。尽管CAV技术近年来取得了诸多进展，但与人类驾驶员相比，能够提供更优或至少同等驾驶水平的完全自动化车辆仍存在缺陷，尚无法投入市场应用[1]。其中一个最重大的挑战是在混合交通场景中进行运动规划，即自动驾驶车辆（AVs）与人工驾驶车辆（HVs）、骑行者和行人共存的环境[2]–[4]。特别是，由于人类具有有限理性，其行为并不总是最优的，因此对人类决策过程进行建模十分困难[5]。

自动驾驶车辆在运动规划过程中，必须考虑智能体之间的交互，无论是车对车还是车对人。在混合交通场景中，[6]accounted通过考虑车辆的随机可达集来处理这些交互。假设每个智能体的期望路径是已知的，但可能是不完美的。或者，可以使用博弈论框架来制定战略决策，以应对多智能体混合交通场景中的交互。

在层级‐k博弈论方法中，智能体根据其认知能力[7]被划分为层次结构。该方法在建模交互时考虑了其他代理的理性，与可达集方法相比，可能导致更少保守的动作。此前，博弈论建模方法已被应用于[8],中的高速公路驾驶场景以及[9]–[11]中的无信号交叉口。采用多模型策略，从自动驾驶车辆的视角为智能体在层次结构中以一定的置信度分配多个层级。自主智能体会在每个时间步更新对驾驶员等级及其处于某一特定等级的概率估计，以更好地预测其他代理的未来轨迹。

在现有文献中，换道场景已采用其他类型的博弈论方法进行处理。文献[12]提出使用斯塔克尔伯格博弈来建模换道过程中车辆之间的交互。文献[13]采用微分博弈设计换道控制器。文献[14],将博弈论与滚动时域控制相结合用于设计换道控制器。然而，这些方法需要预先定义相邻车辆的行为。文献[15],设计了基于不完全信息博弈的换道控制器，但仅规划了单步前向轨迹。

这些方法能够基于对其他代理未来行为的预测，有效描述自动驾驶车辆的理性决策。然而，对其他代理未来路径的预测无法做到绝对确定性。由于框架内使用的简化车辆动力学模型，以及对其他代理驾驶员等级的错误估计，可能导致不确定性，从而引发自动驾驶车辆采取不安全控制动作。虽然可以采用高保真动力学模型来降低一定程度的不确定性，但这会带来更大的计算负担。此外，在特定交通场景中，智能体之间的交互可能过于短暂，使得自动驾驶车辆难以估计出精确的驾驶员模型。

这些不确定性本质上是其他代理从其预测位置产生的偏差，必须加以处理以实现鲁棒的决策。在[6],中，智能体之间交互的不确定性通过相对于期望路径的概率偏差来描述，然而，所假设的期望路径可能是其他智能体的谨慎性水平，因此可能不准确。

基于模型的鲁棒方法，即反馈极小极大模型预测控制（MPC）[16]–[18],、管状MPC[19],[20]和约束收紧方法[21],[22]，在过去几十年中已被提出并得到充分发展。这些鲁棒方法针对源自有界紧致扰动集的不确定性，提供了满足约束的保障。约束收紧方法没有额外的在线计算负载，并已成功应用于实时汽车应用[23]–[25]。然而，由于在处理本文所考虑的离散输入动作方面具有简单性，因此采用最小‐最大策略来应对上述不确定性以提供鲁棒性。

最小‐最大策略考虑了影响系统行为/性能的最坏情况扰动，并提供控制动作以减轻该最坏情况扰动的影响。因此，如果扰动较大，这些控制动作可能导致保守行为。在[26],中，采用条件风险价值目标函数来考虑模型失配问题。引入了一个恒定的置信水平，用于描述人类车辆（HV）的激进程度。然而，对人类驾驶员置信水平的先验假设可能并不现实。为了在所有可能的交通情况下提供鲁棒性，已有研究[27],[28],建议为自动驾驶车辆采用保守驾驶策略。然而，保守动作可能对交通产生不利影响，例如导致道路拥堵、与其他道路使用者不协调[29],因此希望采取不那么保守的运动行为。

A. 贡献与论文结构

为了设计一种既不保守又能确保车辆安全的控制器，本文提出了一种基于层级‐k博弈论的自适应鲁棒控制方案。尽管层级‐k推理已被广泛应用于建模车辆[8]–[11],之间的交互，但以下特征使所提出的方法区别于其他现有工作。

首先，本文提出的策略在计算控制动作时，能够预见交通场景中模型预测与智能体实际行为之间的不确定性。这是通过以下方式实现的：（i）将由于驾驶员模型差异和使用简化车辆动力学模型所引起的不确定性表示为车辆位置上的扰动；（ii）将鲁棒反馈最小‐最大方法与层级‐k博弈论相结合。其次，通过引入自适应鲁棒机制，降低了鲁棒方法的保守性。本文提出的自适应策略根据对相应智能体激进程度的置信度，动态调整对其他交互车辆预期扰动的大小。因此，所提出的方法能够为自动驾驶车辆提供“平衡”的控制动作，相比处理不确定性的标称（非鲁棒）策略更安全，同时又比传统鲁棒方法更少保守，充分利用了对估计的驾驶员模型的置信度。最后，本文构建了更加真实的仿真环境，以增强所提出方法的可靠性。

示意图0

图1. 自动驾驶车辆（蓝色）可根据其他非自动驾驶车辆（红色）的运动选择的换道序列示例为 {(A, A1),(A1, B1),(B1, B)}，{(A, A2),(A2, B2),(B2, B)} 和 {(A, A3),(A3, B3),(B3, B)}。

测试结果。例如，其他参与的智能体与自动驾驶车辆进行交互，并对交通状况做出反应。所开发的仿真环境有望用于在实时实施之前测试其他决策算法。

本文的组织结构如下。在第二节中，阐述了本文所研究的问题；第三节介绍了具有有界不确定性的车辆动力学模型。接着在第四节中提出了基于博弈论的决策算法和运动规划流程；在第五节中，通过在包含多个智能体的高速公路驾驶场景下进行变道操作的仿真研究，验证了所提出方法的有效性；最后在第六节中对全文进行了总结。

B. 符号说明

符号 Z[a, b] 表示从 a 到 b 的连续整数集合，2Z+ 表示正偶数集合；∅ 表示空集。对于向量 x，x> 0 表示逐元素不等式。算子 ⊕ 表示闵可夫斯基和，对集合 A 和 B 定义为
A⊕B:={a+ b|a ∈ A, ∀b ∈ B}. (1)

二、问题描述

考虑如图1所示的高速公路交通场景，其中红色车辆表示人类驾驶车辆，蓝色车辆表示自动驾驶车辆。自动驾驶车辆的目标是执行变道操作。图1中展示了一部分可能的变道轨迹。轨迹{(A, A1),(A1, B1),(B1, B)}被视为一种激进操作，因为该变道行为靠近人类驾驶车辆3，可能导致碰撞。另一方面，{(A, A3),(A3, B3),(B3, B)}被视为保守策略，因为自动驾驶车辆在距离人类驾驶车辆3最远的位置完成变道操作。过于保守可能导致道路拥堵和不协调。因此，期望为自动驾驶车辆开发一种自适应鲁棒控制策略，能够在降低保守性的同时完成期望的操作，并规划安全运动以避免碰撞。

示意图1

图2. 用于表示车辆动力学的运动学自行车模型。

{(A, A2),(A2, B2),(B2, B)}。换句话说，该策略应能够根据对交互车辆估计行为的置信度来调整自动驾驶车辆的行为。

假设人工驾驶车辆不会对紧随其后的车辆做出反应，因为人类驾驶员通常认为后随车辆会表现出理性行为。因此，人类驾驶车辆在决策时通常不考虑发生追尾碰撞的可能性。这一假设已被采用在跟驰模型[30]中。在此假设下，图1中的HV 1将无视自动驾驶车辆的轨迹进行驾驶，因此从HV 1的视角来看，轨迹{(A, A3),(A3, B3),(B3, B)}不被视为激进的。

III. 车辆动力学模型

图2中的车辆动力学由以下离散的运动学自行车模型[31]表示。

x(t+ 1)= x(t)+ v(t) cos(ψ(t)+ β(t))Δt+ wx(t)(2a)
y(t+ 1)= y(t)+ v(t) sin(ψ(t)+ β(t))Δt+ wy(t)(2b)
ψ(t+ 1)= ψ(t)+ v(t)/lr sin(β(t))Δt (2c)
v(t+ 1)= v(t)+ a(t)Δt (2d)
β(t)= arctan( lr/(lr+ l f) tan(δf(t))), (2e),

其中，t表示离散时间点；(x(t) y(t))表示车辆质心的全局位置；车辆速度由 v(t)表示；β(t)是 v(t)相对于车辆纵轴的角度；ψ(t)表示车辆的横摆角（车辆航向方向与全局x方向之间的夹角）；a(t)表示车辆的加速度；Δt 表示时间步长；δf(t)表示前轮转向角；lf 和 lr 分别为车辆质心到前后轴的距离。

假设后轮不能转向。因此，模型(2)的控制输入表示为γ(t)=(a(t) δf(t))，即加速度和前轮转向角的组合。需要注意的是，当前研究未考虑轮胎力，但可以通过增加计算成本来引入这些动力学，如[32]所示。

表I 对应于输入对的动作

由于数学模型无法以绝对确定性预测系统行为，因此使用项 wx(t)和 wy(t)分别表示车辆质心纵向和横向位置的不确定性。在本研究中，测量噪声和过程噪声被集中处理，并表示为车辆位置的不确定性。假设这些不确定性来源于一个定义的闭合且紧致的集合

W:={w=(wx, wy)|ζw ≤ θ, ζ ∈ R η×2, θ ∈ R η} (3)

其中 η ∈ 2Z+。还假设扰动集包含原点。

第四节基于鲁棒博弈论的决策方法

A. 动作集

在每个时间点，每辆车从有限动作集中选择一个输入对，
Γ={(0, 0),(0, δf,nom),(0,−δf,nom),(anom, 0),(dnom, 0), (amax, 0),(dmax, 0),(anom, δ f,max),(anom,−δ f,max)},
其中，anom、δf,nom和amax、δf,max分别为标称加速度、最大加速度、前轮转向角；dnom、dmax分别为标称减速度和最大减速度。Γ中的输入对对应于表I中描述的动作，这些动作足以描述大多数车辆运动，但通过引入更精细的控制动作对，可以考虑更详细的车辆运动。每个时间步应用的输入对是基于下一小节所述的奖励函数优化决定的。

B. 奖励函数

自动驾驶车辆在选择最优输入对时的决策过程遵循滚动时域策略。滚动时域框架利用了使用数学模型来预测系统行为的前馈控制策略的优势。另一方面，由于反馈环的存在，滚动时域策略对不确定性具有一定程度的内在鲁棒性。

预测时域内使用的标称模型是

xt+j+1 = xt+j + vt+j cos(ψt+j + βt+j) Δt (4a)
yt+j+1 = yt+j + vt+j sin(ψt+j + βt+j) Δt (4b)
示意图2

图3. 表示车辆的碰撞区域（实线）、安全区域（虚线）和不确定性区域（点划线）的边界框。

ψt+j+1= ψt+j+ vt+j(lr) −1 sin(βt+j)Δt (4c)
vt+j+1= vt+j+ at+jΔt (4d)
βt+j= arctan( lr lr+ lf tan(δf, t+j)), (4e),

其中 j ∈Z[0, N−1]表示预测时域 N中的一个预测步长，γt+j=(at+j, δf, t+j)表示在预测步长 j施加到(4)的输入对。选择一系列动作，即 γt={γt, γt+1,…, γt+N−1}，以最大化由累积奖励给出的目标
R(γt)= ∑ _j=0 ^N−1 λ ^j R _t+j , (5)

其中，R _t+j 是在时间步 t 针对输入 γ _t+j ∈Γ 确定的预测步长 j 的阶段奖励；λ ∈[0, 1] 是折扣因子。

根据滚动时域策略，应用于(2)的输入γ(t)是最优动作序列 γ _t ∗=的第一个元素，在每个时间点 t将其作为动作应用于车辆，并且该过程需要在每个控制周期中重复执行。

在预测步长 j处的阶段奖励定义为
R _t+j =α ^T φ _t+j . (6)

其中，φ _t+j =[φ _1,t+j , φ _2,t+j ,…, φ _m,t+j ] ^T 是步骤 j处的特征向量，这些特征的权重包含在权重向量 α=[α ₁ , α ₂ ,…, α _m ] ^T 中，其中α _i > 0, ∀i ∈Z[1, m]，m为特征的数量。对于图1中的换道场景，所考虑的特征如下所述。

为了定义奖励函数，首先考虑每个车辆几何轮廓的矩形外近似，如图3所示。用实线、虚线和点划线表示的外近似分别称为避碰区域（C）、安全区域（S）和不确定性区域（U）。车辆的安全区域是一个矩形区域，其包含具有安全裕度的车辆避碰区域。s区域宽度由 w _s 给出，且s区域前后端相对于车辆质心的距离分别由l _s,f 以及l _s,r 。安全裕度根据与周围车辆需保持的最小安全距离来选择。在本研究中，l _s,f = l _s,r ，然而，l _s,f 可以选择大于l _s,r ，以便在车辆前方留出更多裕度，如[11]所示。定义为U= S ⊕W的最大不确定区域用于处理来自扰动集 W的不确定性。

基于这些区域，对于第 l辆自动驾驶车辆，奖励函数特征φ _1,t , φ _2,t 和φ _3,t 被定义为指示函数，分别用于表征：
- 碰撞状态 — 当自车的避碰区域与任何其他车辆的避碰区域相交时，表示发生碰撞或存在碰撞危险。如果检测到重叠，则φ _1,t 被赋值为−1；否则为0，即
φ _1,t = ∑ _i=1 ⁿ { −1, 0, C _t [l]⋂C _t [i], ∀i ∈ O otherwise , (7)
其中 C _t [i]表示第i辆车在时刻 t的避碰区域，O={i|i ∈Z[1, n], i ≠ l}，n表示智能体的数量。
- 道路内状态 — 自车的安全区域与图1中绿色区域的交集表明自车位于道路边界之外。该特征φ _2,t = −1若检测到重叠；φ _2,t = 0，否则，即
φ _2,t ={−1, 0, S _t [l]⋂B _t otherwise , (8)
其中 B _t 表示在给定时间 t的非道路区域集合。
- 不确定性区域违规状态 — 如果检测到自车的不确定性区域与另一车辆的不确定性区域发生重叠，则φ _3,t 被赋值为 −1；否则为0，即
φ _3,t = ∑ _i=1 ⁿ { −1, 0, U _t [l]⋂U _t [i], ∀i ∈ O otherwise , (9)
其中 U _t [i]表示第 i辆车在时间 t的不确定性区域。

基于模型的控制器的标定具有挑战性 [33], [34], 然而，直观上，优先考虑前三个特征以避免控制器采取的动作导致灾难。因此，调参选择如下：
α ₁ , α ₂ , α ₃ ≫ α ₄ , α ₅ , α ₆ . (13)

C. 层级-K框架

在多智能体交通场景中，决策过程的交互性通过阶段奖励 R _t+j 中的特征φ _1,t 和φ _3,t 体现，这些特征依赖于其他车辆的状态。为了计算(5)中的累积奖励，针对第 l辆自动驾驶车辆给定的动作序列
γ _t [l]={γ _t [l], γ _t+1 [l],…, γ _t+N−1 [l]}, (14)
需要预测其他代理的动作
γ _t [i]={γ _t [i], γ _t+1 [i],…, γ _t+N−1 [i]}, ∀i ∈ O. (15)
交通的相应状态 s _t+j 在预测步长 j ∈Z[0,N−1] 处，表示所有智能体的状态变量如下，
s _t+j =[x _t+j [1], y _t+j [1], ψ _t+j [1], v _t+j [1], ···, x _t+j [n], y _t+j [n], ψ _t+j [n], v _t+j [n]] ^T . (16)

本文利用层级‐k博弈论[35],[36]对车与车之间的交互进行建模，从而预测其他代理在预测时域内的动作。

在k级博弈论中，假设策略型智能体的决策基于对其他代理动作的预测，并且这些智能体可以具有不同的推理层次。智能体的推理深度由 k ∈{0, 1, ···}表示。该层次结构从0级智能体开始，这类智能体在不考虑与其他代理交互的情况下，通过本能决策来实现目标。另一方面，k ∀k> 0级的智能体则通过假设其他代理处于(k −1)级来考虑交互，并据此做出决策。例如，一个第 l个1级智能体假设其他代理为0级，预测它们的动作序列 γ ⁽⁰⁾ _t [i]= {γ ⁽⁰⁾ _t [i], γ ⁽⁰⁾ _t+N−1 [i]} ∀i ∈ O，以计算自身的动作序列 γ ⁽¹⁾ _t [l]={γ ⁽¹⁾ _t [l], γ ⁽¹⁾ _t+N−1 [l]}。

假设0级车辆将交通场景中的其他车辆视为静止障碍物。因此，这些零级驾驶员隐含地认为其他车辆会主动让行，可被视为“激进的”。而一级驾驶员则认为其他驾驶员是激进的，因而采取“谨慎的”动作。类似地，2级驾驶员在决策时假设其他车辆被建模为一级驾驶员，即“谨慎的”驾驶员。因此，2级驾驶员的行为模式基于这一假设。驾驶员本质上接近于“激进的”驾驶员，即0级推理深度。

在[9],中，采用k级博弈论对无信号灯四向交叉路口的车与车之间的交互进行建模，驾驶员被分为0级、1级和2级。然而，由于2级驾驶员的行为将与0级驾驶员相似，因此本文仅考虑0级和1级驾驶员，但可扩展至包含2级驾驶员，代价是增加计算复杂度。

在预测步长 j时，自车代理对第 l个第k级智能体执行动作 γ ^(k) _t+j [l]所获得的阶段奖励值，取决于当前交通状态 s ₀ 、自车代理的动作{γ ^(k) _t [l], γ ^(k) _t+1 [l],…, γ ^(k) _t+j−1 [l]}以及其他代理的动作{γ ^(k−1) _t [i], γ ^(k−1) _t+1 [i],…, γ ^(k−1) _t+j−1 [i]} ∀i ∈ O，其表达式为
R ^(k) _t+j [l]= R _t+j (γ ^(k) _t+j [l] ∣ s ₀ , γ ^(k) _t [l], γ ^(k) _t+1 [l],…, γ ^(k) _t+j−1 [l], γ ^(k−1) _t [i], γ ^(k−1) _t+1 [i],…, γ ^(k−1) _t+j−1 [i]), (17)
及其累积奖励为
R ^(k) (γ ^(k) _t [l])= ∑ _j=0 ^N−1 λ ^j R ^(k) _t+j [l]. (18)

D. 多模型策略

人类驾驶员最初并不完全了解其他驾驶员。然而，他们通过交互逐渐更好地理解其他驾驶员的特性，从而更有效地解决冲突。类似地，在多智能体交通场景中，自动驾驶车辆对其他车辆的驾驶员模型（0级和1级）具有初始信念，表现为对这两种模型的概率分布。这使得驾驶员的激进程度（或谨慎性）可以表示为介于0级和1级之间的连续参数。随后，基于其他代理实际采取的动作，每一步都会更新对该概率分布的估计。

从第 l个自主代理的视角来看，在时刻 t，第 i个其他智能体可被建模为层级‐k的概率由 P(K=k)[i] _l (t)表示。当模型 k与实际动作相符时，其概率会增加
k = arg min _{k ∈{0, 1}} ||γ i − γ ^(k) _t [i]|| (19a)
P̃(K=k )[i] _l (t) = P(K=k ^* )[i] _l (t −1)+ΔP (19b)
P(K=k)[i] _l (t)= P̃(K=k)[i] _l (t) / ∑ _k̃=0 ¹ P̃(K=k̃)[i] _l (t), ∀k ∈{0, 1}, (19c)
其中，γ i 和 γ ^(k) _t [i] 分别表示第 i个智能体在假设为 level‐k 模型下采取的实际动作和预测动作；ΔP> 0 是表示概率增量速率的常数；
||γ i − γ ^(k) _t [i]|| = |a(t)− a ^(k) _t | / |a _nom | + |δ _f (t)− δ ^(k) _f,t | / |δ _f,nom |. (20)

为了在决策过程中融入多模型策略，并根据其他代理的模型选择最优动作，第l个智能体的期望累积奖励由 (17)和(18)给出
R ^P (γ _t [l])= ∑ _k=0 ¹ P(K=k)[i] _l (t)R ^(k) (γ ^(k) _t [l]), ∀i ∈ O. (21)

假设1 ：考虑以下假设：
1) 交通场景中的每个智能体都可以获取当前交通状态 s ₀ 。
2) 每个智能体都知道所有其他代理的 x _ref , y _ref , v _ref 。
3) 每个智能体都知道其他智能体在前一时间步于交通场景中采取的动作。

备注1 : 为了计算（21）中的累积奖励，需要其他代理 {γ ^(k−1) _t [i], γ ^(k−1) _t+1 [i],…, γ ^(k−1) _t+j−1 [i]}∀i ∈ O的动作。第 l个智能体预测这些动作，使得这些动作根据其他智能体周围的交通状态和 P(K=k)[i] _l (t)∀k ∈{0, 1}对其而言是最优的。

E. 鲁棒决策制定

车辆质心的实际位置（用于确定车辆的矩形外近似，参见第四节‐B）与其通过式(4)中的动态模型得到的预测之间的不匹配可能导致碰撞。在所考虑的多智能体交通场景中，建模误差有两个来源：(i) 由于使用式(4)中的简化模型而产生的不确定性 w ^(m) =(w ^(m) _x , w ^(m) _y ) ∈ W ^m ；以及 (ii) 由于未知驾驶员模型而引起的不确定性 w ^(d) =(w ^(d) _x , w ^(d) _y ) ∈ W ^d 。因此，扰动集如下所示：
W= W ^m ⊕W ^d . (22)

来自扰动集 W的最大纵向和横向不确定性分别由以下给出
w ^max _x = max _{w ∈W} |[1 0 0 0] w|,
w ^max _y = max _{w ∈W} |[0 0 0 1] w|.

可以计算出可能的最大纵向偏差，即在给定采样周期 Δt内，不同级别的驾驶员采取相反的控制动作所导致的纵向位置偏差。
w ^max _x = |a _max − d _max | Δt ² . (23)
以类似的方式，可以通过考虑在(2)中使用−δ _f,max 和 δ _f,max 所得出的差异来确定可能的最大横向不确定性。

鲁棒方法可用于在计算控制动作时考虑这些不确定性。由于本研究中考虑了离散的输入动作集，因此采用反馈极小极大策略[16]来处理源自集合 W的不确定性。由于自主智能体在每个时间步根据式(19)更新多智能体交通场景中其他代理的驾驶员模型，因此提出了一种自适应方案，以引入对驾驶员模型的置信度，并利用一级驾驶员具有谨慎特性的事实。在每个时间步考虑的扰动集被修改为
W̄[i] _l (t)= W ^m ⊕ P(K=0)[i] _l (t)W ^d , (24)
其中，在时间 t，P(K=0)[i] _l (t)表示从第 l个自主智能体的视角来看，第 i个智能体是零级驾驶员的概率，而 W̄[i] _l (t)表示从第 l个自主智能体的视角来看第 i个智能体的扰动集。

假设最初所有智能体均为零级驾驶员，即 P(K=0)[i] _l (0) = 1, ∀i ∈ O。本质上，该假设使得自主代理在缺乏或仅有少量关于其他交互智能体的信息时能够保持谨慎。例如，若第 i个智能体为零级驾驶员，则随着时间推移，P(K=0)[i] _l (t)将始终保持为1，因此自主代理将采取保守的动作（或表现得像1级驾驶员）。另一方面，当第 i个智能体为1级驾驶员时，P(K=0)[i] _l (t)将减小，导致扰动集的尺寸减小，从而允许自主代理采取不那么保守的动作，并适应交互中第 i个智能体的行为，同时具备处理因使用简单预测模型而产生的不确定性的能力。

在与智能体 i ∈ O 交互时，自主代理 l 的目标是在考虑可能的干扰实现带来的最坏情况不确定性影响下，最大化期望累积奖励（18）。最优控制序列 γ _t [l]={γ _t [l], γ _t+1 [l],…, γ _t+N−1 [l]} 通过求解以下优化问题获得
γ ^* _t [l]= arg max _{γ _t [l] ∈ Γ} min _{w ^p _t+j ∈ W̄[i] _l (t)} R ^P (γ _t [l]) (25a)
s.t. ∀j ∈ Z[0, N−1], (4c),(4d),(4e), ∀i ∈ O, ∀p ∈ P
x̃ _t+j+1 = x̃ _t+j + v _t+j cos(ψ _t+j + β _t+j ) Δt+ w ^p _x,t+j (25b)
ỹ _t+j+1 = ỹ _t+j + v _t+j sin(ψ _t+j + β _t+j ) Δt+ w ^p _y,t+j , (25c)
其中 w ^p _t+j =(w ^p _x,t+j , w ^p _y,t+j )表示质心在 x和 y方向上的全局位置的不确定性的可能干扰实现；而 P表示干扰实现的索引集合。

由于(25)的决策变量是离散的，因此使用决策树方法[37]求解。其基本原理是枚举所有可能的离散动作序列组合，然后选择能够最大化奖励函数(25)的最佳序列 γ。自主代理随后应用最优控制动作序列的第一个元素 γ _t [l]，即 γ(t)= γ _t [l]。

V. 仿真

A. 设置

所提出的自适应鲁棒方法在数值仿真下的三车道高速公路路段变道操作中得到了验证。1仿真所用的模型参数见表II。

1代码已在 https://github.com/gokulsivasankar/RobustDecisionMaking 公开提供

示意图3

图4. 四秒仿真序列，时间间隔为一秒（沿列查看），展示了自动驾驶车辆在多交通场景下分别采用（a）标称；（b）自适应；以及（c）鲁棒决策策略执行的变道操作。圆圈中的数字表示车辆编号，罗马数字表示子图[1, 1]中的车道编号。在某一时刻 t，点划线表示第 i辆车相对于第 l个自主代理的不确定性集合，U[i] _l (t)= S i ⊕ W̄[i] _l (t) ∀i ∈ O。

考虑图4子图[1, 1]中所示的多智能体交通场景（第一个元素表示行，第二个元素表示列）。自主代理（蓝色）的目标是从第二车道变道至第三车道，而人类智能体保持各自车道不变。假设所有人类驾驶员均为1级，即表现出谨慎的行为，但这一点对自动驾驶车辆未知。采样时间设置为0.5秒，并采用两步预测时域。在决策过程中，所提出的自适应方法与标称（非鲁棒）及鲁棒策略进行了比较。

交通场景中人类驾驶车辆的动作基于第四节‐C中描述的层级‐k框架计算得出。(12)式中这些智能体的参考速度选择为道路限速，(10)式中的参考点选择为x _ref = x(0)+ 300, y _ref = y(0)。对于自动驾驶车辆，x _ref = x(0)+ 300，而 y _ref 选择为目标车道的车道中心，即图4中最左侧车道。参考纵向位置的选择确保所有智能体都有向前移动的动力。

在此数值研究中，假设影响车辆实际位置的不确定性源自集合 W̄[i] _l (t)，并遵循均匀分布。本文所考虑的最大纵向与横向不确定性如表II所述。

B. 结果

在图4的第一列子图中展示了采用标称决策策略下的交通仿真结果。在此情况下，求解(25)时所考虑的扰动集被选择为空集，即为空集，W̄[i] _l (t)= ∅。由于该情况未考虑扰动，可以看出自动驾驶车辆在仿真开始后立即选择向左转向，以获得最大奖励。这一行为被视为激进的。然而，人类驾驶车辆4较为谨慎，在时间 t= 2秒时向左转向，并在自动驾驶车辆通过后于 t= 4秒返回车道中心。自动驾驶车辆在60米至70米之间完成了变道。

使用考虑 W̄[i] _l (t)= W= W ^m ⊕W ^d 的鲁棒策略在决策过程中得到的结果如图4第三列的子图所示。如第四节‐E所述，最初从自动驾驶车辆的视角来看，所有人类驾驶员都被视为0级，而实际上他们被设定为一级驾驶员。如图5所示，由于与车辆4的交互，随着时间推移，自动驾驶车辆能够降低车辆4为0级的概率。还可以从图4的子图[3, 3]中注意到，为了考虑不确定性集合 U[i] _l (t)= S i ⊕W̄[i] _l (t)，采取了鲁棒控制动作，该不确定性集合由图4中围绕人类驾驶员的点划线框表示。因此，自动驾驶车辆采取保守策略，并在90米到100米之间完成变道。

最后，自适应控制策略的仿真结果如图4第二列的子图所示。所有人类智能体的初始扰动集与前一情况相似。然而，通过使用式(24)中的自适应扰动集来计算控制动作，自动驾驶车辆能够在约70米处完成变道。此外，可以观察到集合 U[i] _l (t) ∀i ∈{1, 3}的大小保持不变。

示意图4

图5. 从自动驾驶车辆2的视角来看，人工驾驶车辆4被建模为0级的概率随着时间推移而降低，因为车辆4实际上是1级。

示意图5

图6. 自动驾驶车辆的速度轨迹和控制动作。

因为这两辆车辆的零级和一级动作相同，因此根据公式 (19)，驾驶员模型不会被更新。所提出的策略允许自动驾驶车辆在驾驶员模型存在不确定性时谨慎行事，并根据对交互驾驶员模型的估计来调整其行为。采用自适应策略得到的自动驾驶车辆的速度、加速度和转向角轨迹如图6所示。从大约6秒开始在转向角中观察到的振荡响应可以通过选择更精细的离散动作或连续动作空间来消除。

示意图6

图7. 各种策略下的碰撞率。

示意图7

图8. 各种策略下的变道率。

从上述相同的初始条件开始，针对每种决策策略下的交通场景进行了多次仿真运行。为了捕捉驾驶员行为的多变性（即在某些时间段表现为激进行为，在其他时间段表现为谨慎行为），在每次仿真运行中，每个时间步的人类驾驶员层级会随机选择为0级或1级。

三种策略下的碰撞率和变道率如图7和图8所示。正如预期，由于未考虑驾驶员模型中的不确定性，标称方法表现出最高的碰撞率，达到21%。相比之下，鲁棒策略的碰撞次数最低，但由于过于保守，其变道成功率也最低，仅为75%。然而，自适应方法相较于标称情况将碰撞率显著降低至2%。更重要的是，自适应策略使车辆完成变道操作的成功率相比其他两种方法更高，达到93%。

VI. 结论

一种自适应鲁棒决策策略已被提出，用于在多智能体交通场景中与人类驾驶员共享道路的自动驾驶车辆。车辆之间的交互通过层级‐k博弈论框架进行建模。所提出的鲁棒控制策略考虑了车辆动力学模型和驾驶员模型估计中的不确定性。自动驾驶车辆在每个时间步估计其他代理的驾驶员模型，并通过变道操作的数值仿真表明其能够利用该估计来自适应调整自身行为。通过数值研究，所提出的方法被证明可为自动驾驶车辆，使得与非鲁棒方法相比碰撞率显著降低，并且与鲁棒方法相比提高了变道率。预计所提出的自适应方法可应用于各种交通场景，例如无信号交叉口的决策、并入交通流等。未来的研究将集中在通过降低计算复杂度和考虑连续动作空间来实现该方法的实时实现。

您可能感兴趣的与本文相关的镜像