11、强化学习问题求解：动态规划方法

xray4

于 2025-08-03 13:55:09 发布

阅读量31

点赞数

CC 4.0 BY-SA版权

分类专栏：精通Python强化学习文章标签：强化学习动态规划策略评估

本文链接：https://blog.youkuaiyun.com/xray4/article/details/151042302

精通Python强化学习专栏收录该内容

39 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

强化学习问题求解：动态规划方法

在强化学习（RL）和马尔可夫决策过程（MDP）中，我们的目标是获得（接近）最优策略。但首先，我们需要一种方法来评估给定的策略，以便比较不同策略并找出更优的那个。接下来，我们将深入探讨动态规划（DP）中的策略评估方法。

策略评估

在MDP和RL中，我们的目标是获得（接近）最优策略。但如何评估一个给定的策略呢？如果无法评估，就无法比较不同策略的优劣。因此，我们从策略评估（也称为预测问题）开始讨论DP方法。评估给定策略有多种方法，这里我们采用迭代版本。

迭代策略评估算法

对于给定策略，状态的值定义如下：
$v_{\pi}(s)$ 是从状态 $s$ 开始并遵循策略 $\pi$ 的预期折扣累积奖励。在食品卡车示例中，状态 $(Mon, 0)$ 的值是周一库存为零时一周的预期奖励（利润）。使 $v(Mon, 0)$ 最大化的策略就是最优策略！
$v_{\pi}(s) \triangleq E_{\pi}[G_{t}|S_{t}= s] = E_{\pi}[\sum_{k=0}^{\infty}\gamma^{k}R_{t+k+1}|S_{t}= s]$

贝尔曼方程告诉我们，状态值必须相互一致。即预期的一步奖励加上下一状态的折扣值应等于当前状态的值。更正式地说：
$v_{\pi}(s) \triangleq E_{\pi}[R_{t+1} + \gamma v_{t+1}|S_{t}= s] = E_{\pi}[R_{t+1} + \gamma v_{\pi}(S_{t+1})|S_{t}= s]$
$v_{\pi}(s) \triangleq \sum_{a}\pi(a|s)\