强化学习（二）：动态规划与蒙特卡洛方法

最新推荐文章于 2025-05-01 21:49:48 发布

原创

最新推荐文章于 2025-05-01 21:49:48 发布 · 2.3k 阅读

4 ·

CC 4.0 BY-SA版权

1. 动态规划（Dynamic Programming, DP）

DP是一种求解最优值得常用方法，此处用于求解系统动态特性 $p (s^{'}, r ∣ s, a)$ 已知情况下的最优策略。

首先我们有一个策略 $\pi$ 并以此求出最优策略 $\pi*$ 。

1.1. 策略评估（预测）

策略评估做的事情是：给定策略 $\pi$ ，求出该策略的价值函数 $v_{\pi}(s)$ 与 $q_{\pi}(s,a)$

事实上根据马尔科夫决策过程中的描述，状态价值函数 $v_{\pi}(s)$ 满足如下递推特性：

$v_{\pi}(s)=\sum_{a}\pi(a|s) \times q_{\pi}(s,a) =\sum_{a}\pi(a|s) \sum_{s',r}p(s',r|s,a)[r+\gamma \times v_{\pi}(s')] \tag{1}$

其中 $\gamma <1$
这实际上是一个有着 $∣ S ∣$ 个未知数的 $∣ S ∣$ 个方程的方程组，手动求解可能非常复杂，选择迭代策略评估求解。

迭代策略评估

思想是先随机初始化所有变量值，记为 $v_0(s)$ 。之后用 $v_0(s)$ 的值按照下式计算 $v_1(s)$ 的值
$v_{k+1}(s) = \sum_{a}\pi(a|s) \sum_{s',r}p(s',r|s,a)[r+\gamma \times v_{k}(s')]$
事实上就是用旧的 $v_k(s)$ 计算新的 $v_{k+1}(s)$ 。由于策略存在，则 $v_{\pi}(s)$ 一定存在，可以证明 $v_∞(s)→v_{\pi}(s)$ 。在实际编程中可以使用 $\max_{s}|v_{k+1}(s)-v_k(s)|<\epsilon$ 判断是否终止。

得出 $v_{\pi}(s)$ 之后就可以根据 $(1)$ 算出 $q_{\pi}(s,a)$ 了。

1.2. 策略改进（控制）

在得到策略 $\pi$ 的值函数之后，就需要对该策略进行改进以获得更优的策略，然后再对更优的策略求更优，如此迭代反复最终找到最优策略。

什么是更优的策略?

状态价值函数更大的策略就是更优的策略，即

如果 $\forall s \in S, v_{\pi'}(s) ≥v_{\pi}(s)$ 成立且至少存在一个状态 $s$ 满足严格不等 $v_{\pi'}(s) >v_{\pi}(s)$ ，则认为策略 $\pi'$ 较 $\pi$ 更优。

如何获得更优的策略？

寻找比当前策略 $\pi$ 更优策略 $\pi'$ 的思路是：先调整一个状态，对于状态 $s$ ，满足
$\pi'(s)=\argmax_aq_{\pi}(s,a) \tag{2}$
即保证状态 $s$ 下选择的动作一定是所有可选动作中 $q_{\pi}(s,a)$ 最大的那个。

其实就是修改概率分布，这是因为
$v_{\pi}(s)=\sum_{a}\pi(a|s) \times q_{\pi}(s,a)≤\max_aq_{\pi}(s,a)=\max_a\sum_{s',r}p(s',r|s,a)[r+\gamma \times v_{k}(s')]=v_{\pi'}(s)$