[归纳]强化学习导论 - 第四章：动态规划_tails prediction problem-优快云博客

本文链接：https://blog.youkuaiyun.com/u013695457/article/details/88795340

文章目录

1.本章内容概要
2.策略评估(预测)
3.策略提升
4.策略迭代
5.值迭代
6.异步动态规划
7.广义策略迭代
8.动态规划的有效性
9.总结
参考文献

1.本章内容概要

动态规划(Dynamic Programming, DP)是在完全已知任务MDP形式的模型时，一类用来计算最优策略的方法。因为完全已知模型的假设和过大的计算开销，经典的DP方法在强化学习任务中的直接使用比较受限，但在理论上还是有重要的意义。DP为本书后续介绍的各种方法提供了必要的基础，实际上，所有这些方法不过是希望在降低计算开销及不依赖环境模型的前提下达到和DP同样的效果罢了。

我们通常假设环境是finite MDP(上一章介绍了finite MDP的含义)的。虽然DP思想也能应用到连续states/actions空间的问题，却只有一些特殊情况能得到精确解。一个常用的处理办法是把连续问题离散化，也就是把states和actions分段化(quantize)。第九章我们会专门讨论连续states/actions问题。

DP的核心思想，乃至RL的基础思想，都是基于value函数(上一章已详细介绍)的策略搜索和改进。在这章中，我们将展示DP方法是如何用来计算value函数的。只要我们得到了满足Bellman最优方程的最优值函数，我们实际上就得到了最优策略。DP方法则通过prediction/improvement的update操作不断逼近最优value函数。

2.策略评估(预测)

首先考虑如何计算任意给定策略的state-value函数 $v_\pi$ ，在DP中，这叫做policy evaluation，或者prediction problem。上一章我们给出了state-value的Bellman方程：

$\begin{aligned} v_\pi(s) & \doteq \mathbb{E}_\pi[G_t | S_t =s] = \mathbb{E}_\pi[R_{t+1} + \gamma G_{t+1} | S_t =s] \\ &= \sum_a \pi(a|s) \sum_{s',r} p(s',r | s,a) \left[ r + \gamma \mathbb{E}_\pi [G_{t+1} | |S_{t+1} = s'] \right] \\ &= \sum_a \pi(a|s) \sum_{s',r} p(s',r | s,a) \left[ r + \gamma v_\pi (s') \right] \end{aligned}$

如果环境的dynamics是完全已知的，则上式实际上是 $∣ S ∣$ 个 $∣ S ∣$ 元方程组，可以直接求解。但是当 $∣ S ∣$ 很大时直接求解这个方程组是不现实的，因此我们可以用迭代的方法逼近真实值，迭代公式为：

$\begin{aligned} v_{k+1}(s) & \doteq \mathbb{E}_\pi[R_{t+1} + \gamma v_k (S_{t+1}) | S_t =s] \\ &= \sum_a \pi(a|s) \sum_{s',r} p(s',r | s,a) \left[ r + \gamma v_k (s') \right] \end{aligned}$