延迟强化学习的案例与值函数估计方法
1. 带动力学的机器人导航
在机器人导航问题中,传统方式像棋盘棋子移动一样将机器人从一个单元格移到另一个单元格,但真实的机器人运动涉及动力学,需要考虑速度和加速度的影响。
1.1 状态定义
设 (h_t) 和 (u_t) 分别表示机器人在时间 (t) 所占据单元格的水平和垂直坐标,(\dot{h} t) 和 (\dot{u}_t) 表示速度。向量 ((h_t, \dot{h}_t, u_t, \dot{u}_t)) 表示时间 (t) 的系统状态,四个分量均为整数。目标状态为 (x_G = (h_G, u_G, 0, 0)),即机器人需在目标单元格 (G) 处静止。设 (h {max}) 和 (u_{max}) 为速度大小的限制,则状态空间为:
(\Omega = { x = (h, \dot{h}, u, \dot{u}) | (h, u) \text{ 是空白单元格}, |\dot{h}| \leq h_{max}, |\dot{u}| \leq u_{max} })
此外,引入一个额外的失败状态 (f),表示进入障碍物单元格或超过速度限制的情况,所以完整的状态空间 (X = \Omega \cup { f })。
1.2 动作定义
水平和垂直方向的加速度 (a_h) 和 (a_u) 为动作。为使 (h) 和 (u) 为整数,假设每个加速度仅取偶数整数值。设 (a_{max}) 为正偶数,表示加速度大小的限制。则 (a = (a_h, a_u)) 是一个可允许的动作,当且仅当 (a_h) 和 (a_u) 均为 ([-a_{max}, a_{max}])
延迟强化学习案例与值函数估计
超级会员免费看
订阅专栏 解锁全文
889

被折叠的 条评论
为什么被折叠?



