不基于模型的预测
本文未经许可禁止转载,如需转载请联系笔者
0. 前言
在前一章: 动态规划寻找最优策略中,已经讲述了在已知状态转移概率时,如何使用 策略评估、策略迭代、价值迭代 的方法来求解价值函数,或寻找最优价值函数与最优策略。
本章的重点在于未知环境的状态转移概率,就是在一个状态下采取一个动作,并不知道自己可能会转移到什么样的状态,这就是model-free
。
与前一章: 动态规划寻找最优策略的思路相同,model-free 也需要解决预测和控制这两个问题。而本章聚焦于策略评估,也就是解决预测问题,下一章解决控制问题,找到最优策略和最优价值函数。
本章分为三个部分,将分别从理论上阐述 基于完整采样的蒙特卡罗强化学习、基于不完整采样的时序差分强化学习 以及 介于两者之间的