63、强化学习：即时与延迟学习方法解析

perl8

于 2025-10-11 13:30:55 发布

阅读量10

点赞数

CC 4.0 BY-SA版权

分类专栏：神经计算：智能的基石文章标签：强化学习即时强化学习延迟强化学习

本文链接：https://blog.youkuaiyun.com/perl8/article/details/154888857

神经计算：智能的基石专栏收录该内容

99 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

强化学习：即时与延迟学习方法解析

1. 延迟强化学习算法基础

在某些环境中，学习只能通过在线尝试各种动作并访问多个状态来实现，延迟强化学习（Delayed RL）算法就适用于这种情况。其一般格式如下：
1. 初始化学习系统 ：为学习过程做好准备。
2. 循环执行以下步骤 ：
- 当系统处于状态 x 时，根据探索策略选择一个动作 a 并应用到系统中。
- 环境返回奖励 r 和下一个状态 y。
- 使用经验 (x, a, r, y) 更新学习系统。
- 设置 x := y。

即使环境模型可用，使用延迟 RL 算法而非离线方法（如动态规划，DP）通常也更具优势。因为在许多问题中，状态空间非常大，DP 算法需要处理整个状态空间，而延迟 RL 算法仅操作与系统操作最相关的部分状态空间。当模型可用时，延迟 RL 算法可以采用模拟操作模式，而不是在线操作，以加快学习速度并避免使用硬件进行实验。这里的实时操作指的是在线操作或模拟操作模式。

在大多数应用中，精确表示函数（如 V 和 j~）是不可行的。更好的选择是使用参数化函数逼近器，例如神经网络。以 V 为例，考虑一个函数逼近器 ?(.; w) : X + R，其中 R 表示实数线，w 表示逼近器的参数向量，学习的目标是让 ? 很好地逼近 V*。通常，在延迟 RL 算法的步骤 (iii) 中，学习系统根据经验确定一个方向 q，用于改变 ?(x; w) 以提高性能。给定步长 p，函数逼近器将 w 更新为新值，使得：
[C(x; w_{new}) = C(x; w) + pq]
在多