63、强化学习:即时与延迟学习方法解析

强化学习:即时与延迟学习方法解析

1. 延迟强化学习算法基础

在某些环境中,学习只能通过在线尝试各种动作并访问多个状态来实现,延迟强化学习(Delayed RL)算法就适用于这种情况。其一般格式如下:
1. 初始化学习系统 :为学习过程做好准备。
2. 循环执行以下步骤
- 当系统处于状态 x 时,根据探索策略选择一个动作 a 并应用到系统中。
- 环境返回奖励 r 和下一个状态 y。
- 使用经验 (x, a, r, y) 更新学习系统。
- 设置 x := y。

即使环境模型可用,使用延迟 RL 算法而非离线方法(如动态规划,DP)通常也更具优势。因为在许多问题中,状态空间非常大,DP 算法需要处理整个状态空间,而延迟 RL 算法仅操作与系统操作最相关的部分状态空间。当模型可用时,延迟 RL 算法可以采用模拟操作模式,而不是在线操作,以加快学习速度并避免使用硬件进行实验。这里的实时操作指的是在线操作或模拟操作模式。

在大多数应用中,精确表示函数(如 V 和 j~)是不可行的。更好的选择是使用参数化函数逼近器,例如神经网络。以 V 为例,考虑一个函数逼近器 ?(.; w) : X + R,其中 R 表示实数线,w 表示逼近器的参数向量,学习的目标是让 ? 很好地逼近 V*。通常,在延迟 RL 算法的步骤 (iii) 中,学习系统根据经验确定一个方向 q,用于改变 ?(x; w) 以提高性能。给定步长 p,函数逼近器将 w 更新为新值,使得:
[C(x; w_{new}) = C(x; w) + pq]
在多

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值