微信公众号:李歪理,欢迎大家关注
上一章我们讨论了用马尔科夫假设来简化强化学习模型的复杂度,这一篇我们在马尔科夫假设和贝尔曼方程的基础上讨论使用动态规划(Dynamic Programming, DP)来求解强化学习的问题。
1. 动态规划和强化学习问题的联系
动态规划的关键点有两个:
- 一是问题的最优解可以由若干小问题的最优解构成,即通过寻找子问题的最优解来得到问题的最优解;
- 二是可以找到子问题状态之间的递推关系,通过较小的子问题状态递推出较大的子问题的状态。而强化学习的问题恰好是满足这两个条件的。
我们先看看强化学习的两个基本问题,具体的数学描述是这样:
预测问题:给定一个MDP(马尔科夫决策过程) ⟨S,A,P,R,γ⟩\left\langle S,A,P,R,\gamma\right \rangle⟨
订阅专栏 解锁全文
4011

被折叠的 条评论
为什么被折叠?



