64、延迟强化学习的案例与值函数估计方法

延迟强化学习案例与值函数估计

延迟强化学习的案例与值函数估计方法

1. 带动力学的机器人导航

在机器人导航问题中,传统方式像棋盘棋子移动一样将机器人从一个单元格移到另一个单元格,但真实的机器人运动涉及动力学,需要考虑速度和加速度的影响。

1.1 状态定义

设 (h_t) 和 (u_t) 分别表示机器人在时间 (t) 所占据单元格的水平和垂直坐标,(\dot{h} t) 和 (\dot{u}_t) 表示速度。向量 ((h_t, \dot{h}_t, u_t, \dot{u}_t)) 表示时间 (t) 的系统状态,四个分量均为整数。目标状态为 (x_G = (h_G, u_G, 0, 0)),即机器人需在目标单元格 (G) 处静止。设 (h {max}) 和 (u_{max}) 为速度大小的限制,则状态空间为:
(\Omega = { x = (h, \dot{h}, u, \dot{u}) | (h, u) \text{ 是空白单元格}, |\dot{h}| \leq h_{max}, |\dot{u}| \leq u_{max} })
此外,引入一个额外的失败状态 (f),表示进入障碍物单元格或超过速度限制的情况,所以完整的状态空间 (X = \Omega \cup { f })。

1.2 动作定义

水平和垂直方向的加速度 (a_h) 和 (a_u) 为动作。为使 (h) 和 (u) 为整数,假设每个加速度仅取偶数整数值。设 (a_{max}) 为正偶数,表示加速度大小的限制。则 (a = (a_h, a_u)) 是一个可允许的动作,当且仅当 (a_h) 和 (a_u) 均为 ([-a_{max}, a_{max}])

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值