强化学习入门3—动态规划_强化学习已知动态特性是什么意思-优快云博客

本文链接：https://blog.youkuaiyun.com/sherlocksy/article/details/119428028

前言

本文为强化学习入门系列的第三篇，主要介绍如何通过动态规划来求解贝尔曼最优方程。

我们知道最优策略 $\pi$ 对应的就是最优价值函数，而其求解分为策略迭代、价值迭代两种方法。本节将详细介绍这两种方法。

本节所讨论的MDP都是已知的MDP。已知的意思就是环境的动态特性是已知的，也就是 $p (s^{'}, a ∣ s, a)$ 这个概率密度函数是确定的。

动态规划

策略迭代

策略迭代可以分为策略评估和策略改进两步骤。策略评估就是给定一个策略 $\pi$ 求解状态价值函数 $v_{\pi}(s)$ ，而策略改进就是寻求一个更优的策略 $\pi'$ ，使得 $v_{\pi'}(s)>v_{\pi}(s)$ 。

策略评估 Policy Evaluation

解析解推导

策略评估就是给定一个策略 $\pi$ 求解贝尔曼方程 $v_{\pi}(s)$ 。我们知道贝尔曼方程有如下形式：
$v_{\pi}(s)=\sum_a \pi(a|s)\sum_{s',r}p(s',r|s,a)[r+\gamma v_{\pi}(s')]\;\;,\forall s\in S$
我们把 $v_{\pi}(s),v_{\pi'}(s)$ 看成未知的，那其实可看出 $v_{\pi}(s),v_{\pi'}(s)$ 之间是线性关系。因为状态 $s$ 是有多个，所以 $v_{\pi}(s)$ 可写成向量形式：
$v_{\pi}(s)= \begin{bmatrix} v_{\pi}(s_1)\\v_{\pi}(s_2)\\...\\v_{\pi}(s_S) \end{bmatrix}_{|S|\times1}$
那问题实际上就是求解一个有 $∣ S ∣$ 个未知量的线性方程组。我们用矩阵来表示 $v_{\pi}(s),v_{\pi'}(s)$ 之间的关系，显然矩阵应该是 $S\times S$ 维的。那接下来我们进一步化简方程组，方程组可拆开成如下两部分：
$v_{\pi}(s)=\sum_a \pi(a|s)\sum_{s',r}p(s',r|s,a)\cdot r+\sum_a \pi(a|s)\sum_{s',r}p(s',r|s,a)\cdot \gamma v_{\pi}(s')\;\;,\forall s\in S$
观察式子左边项，其实 $s^{'}$ 可以被积分掉，也就变成 $\sum_{r}p(r|s,a)r $ ，这就是一个期望的形式，把它定义成一个奖励函数 $r (s, a)$ ，表示给定策略 $\pi$