基于学习的社交协调以提高驾驶安全性和鲁棒性
1. 车辆任务奖励
在驾驶场景中,车辆的任务奖励是一个重要的概念。车辆的任务可以定义为任何特定车辆期望的特定结果,例如合并车道、驶出高速公路等。任务奖励 $r^M$ 的计算公式如下:
[
r^M_{i,j} =
\begin{cases}
\frac{w_j}{(d_{i,j})^{\mu}}, & \text{if } g(j) \
0, & \text{o.w.}
\end{cases}
]
[
r^M_{i,k} =
\begin{cases}
\frac{w_k}{(d_{i,k})^{\mu}}, & \text{if } g(k) \
0, & \text{o.w.}
\end{cases}
]
其中,函数 $g(v)$ 是一个独立的任务评估函数,如果车辆 $v$ 有定义的任务,并且该任务在最近的时间窗口内已经完成,则 $g(v)$ 返回 true。$\mu$ 是一个无量纲系数,$w_j / w_k$ 是单个车辆任务的权重,表示任务的重要性。这使得我们可以定义一个独立于驾驶场景和不同车辆任务目标的通用奖励。在实验中,人类驾驶车辆(HV)可以被分配合并车道任务或高速公路驶出任务。
2. 用于社交驾驶的深度多智能体强化学习(Deep MARL)架构
为了实现社交驾驶,我们采用了带有安全优先级器的 3D 卷积神经网络(CNN)作为 MARL 架构,如下图所示:
gr
超级会员免费看
订阅专栏 解锁全文
1201

被折叠的 条评论
为什么被折叠?



