深度强化学习在自主移动机器人导航中的应用
1. 核心公式与奖励函数
1.1 LCLI P(θ)公式
LCLI P(θ)的计算公式如下:
[LCLI P(\theta) = t[\min(r_t(\theta) t, \text{clip}(r_t(\theta), 1 - \epsilon, 1 + \epsilon) t)]]
其中,超参数 (\epsilon = 0.2)。clip 项 (\text{clip}(r_t(\theta), 1 - \epsilon, 1 + \epsilon) t) 与 KL 惩罚项的作用相同,用于限制过大的策略更新。
1.2 奖励函数
为简化奖励函数,评判网络仅使用两种不同条件,且不进行归一化或裁剪:
[r_t(s_t, a_t) =
\begin{cases}
r_{move} & \text{if not collision} \
r_{collision} & \text{if collision}
\end{cases}
]
当自主移动机器人(AMR)在环境中自由运行时,会获得正奖励 (r_{move});若在最小传感器扫描范围内与障碍物发生碰撞,则会得到显著的负奖励 (r_{collision})。该奖励函数鼓励 AMR 在环境中行驶时保持车道并避免碰撞。
2. 多智能体深度强化学习
2.1 CMAD - DDQN 方法
为实现 AMR(或无人机)的能源优化,提出了直接协作的通信使能多智能体分散式双深度 Q 网络(CMAD - DDQ
超级会员免费看
订阅专栏 解锁全文
241

被折叠的 条评论
为什么被折叠?



