强化学习:即时与延迟学习方法解析
1. 延迟强化学习算法基础
在某些环境中,学习只能通过在线尝试各种动作并访问多个状态来实现,延迟强化学习(Delayed RL)算法就适用于这种情况。其一般格式如下:
1. 初始化学习系统 :为学习过程做好准备。
2. 循环执行以下步骤 :
- 当系统处于状态 x 时,根据探索策略选择一个动作 a 并应用到系统中。
- 环境返回奖励 r 和下一个状态 y。
- 使用经验 (x, a, r, y) 更新学习系统。
- 设置 x := y。
即使环境模型可用,使用延迟 RL 算法而非离线方法(如动态规划,DP)通常也更具优势。因为在许多问题中,状态空间非常大,DP 算法需要处理整个状态空间,而延迟 RL 算法仅操作与系统操作最相关的部分状态空间。当模型可用时,延迟 RL 算法可以采用模拟操作模式,而不是在线操作,以加快学习速度并避免使用硬件进行实验。这里的实时操作指的是在线操作或模拟操作模式。
在大多数应用中,精确表示函数(如 V 和 j~)是不可行的。更好的选择是使用参数化函数逼近器,例如神经网络。以 V 为例,考虑一个函数逼近器 ?(.; w) : X + R,其中 R 表示实数线,w 表示逼近器的参数向量,学习的目标是让 ? 很好地逼近 V*。通常,在延迟 RL 算法的步骤 (iii) 中,学习系统根据经验确定一个方向 q,用于改变 ?(x; w) 以提高性能。给定步长 p,函数逼近器将 w 更新为新值,使得:
[C(x; w_{new}) = C(x; w) + pq]
在多
超级会员免费看
订阅专栏 解锁全文
911

被折叠的 条评论
为什么被折叠?



