延迟强化学习方法:模型与无模型的探索
1. 引言
在解决随机最优控制问题时,动态规划(DP)方法是经典工具。然而,延迟强化学习(RL)方法也能解决相同问题,它们与 DP 方法存在显著差异。
1.1 DP 方法与延迟 RL 方法的区别
| 比较项 | DP 方法 | 延迟 RL 方法 |
|---|---|---|
| 目标实现方式 | 使用离线迭代方法获取最优值函数和最优策略 | 与实时系统操作同时学习,随时间提升性能 |
| 处理的状态空间 | 完整状态空间 X | 实时系统操作中出现的状态集合 2 |
| 模型需求 | 需系统模型 | 主要为无模型方法 |
| 对系统变化的适应性 | 较差 | 更适合非平稳系统和目标 |
延迟 RL 方法可分为基于模型和无模型两类。基于模型的方法与 DP 有直接联系,无模型方法是对基于模型方法的改进,以避免对模型的需求。
2. 基于模型的方法
2.1 值迭代
值迭代的基本思想是计算 $V^ (x)$
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



