90、基于学习的社交协调以提高驾驶安全性和鲁棒性

基于学习的社交协调以提高驾驶安全性和鲁棒性

1. 车辆任务奖励

在驾驶场景中,车辆的任务奖励是一个重要的概念。车辆的任务可以定义为任何特定车辆期望的特定结果,例如合并车道、驶出高速公路等。任务奖励 $r^M$ 的计算公式如下:
[
r^M_{i,j} =
\begin{cases}
\frac{w_j}{(d_{i,j})^{\mu}}, & \text{if } g(j) \
0, & \text{o.w.}
\end{cases}
]
[
r^M_{i,k} =
\begin{cases}
\frac{w_k}{(d_{i,k})^{\mu}}, & \text{if } g(k) \
0, & \text{o.w.}
\end{cases}
]
其中,函数 $g(v)$ 是一个独立的任务评估函数,如果车辆 $v$ 有定义的任务,并且该任务在最近的时间窗口内已经完成,则 $g(v)$ 返回 true。$\mu$ 是一个无量纲系数,$w_j / w_k$ 是单个车辆任务的权重,表示任务的重要性。这使得我们可以定义一个独立于驾驶场景和不同车辆任务目标的通用奖励。在实验中,人类驾驶车辆(HV)可以被分配合并车道任务或高速公路驶出任务。

2. 用于社交驾驶的深度多智能体强化学习(Deep MARL)架构

为了实现社交驾驶,我们采用了带有安全优先级器的 3D 卷积神经网络(CNN)作为 MARL 架构,如下图所示:

gr
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值