【强化学习】强化学习数学基础：贝尔曼最优公式

最新推荐文章于 2025-10-22 14:17:41 发布

原创

最新推荐文章于 2025-10-22 14:17:41 发布 · 1.7k 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#强化学习 #贝尔曼公式 #贝尔曼最优公式 #Bellman #RL

本文介绍了强化学习中寻找最优策略的核心概念——贝尔曼最优公式，通过一个网格示例展示了如何计算状态值和动作值，并解释了如何通过最大化动作值来改进策略。接着，详细阐述了贝尔曼最优公式的矩阵-向量形式，以及不动点理论（收缩映射定理）在解决该方程中的作用，提供了价值迭代算法的步骤。最后，讨论了奖励设计、系统模型和折扣率如何影响最优策略，并通过实例说明了策略的优化过程。

强化学习的目的是寻找最优策略。这里学习贝尔曼最优公式需要重点关注两个概念和一个工具：

两个概念：optimal state value和optimal policy
一个基本工具：the Bellman optimality equation (BOE)

一个示例

还是从一个网格示例开始，如下所示：

列出贝尔曼公式：

求解State value：令 $\gamma=0.9$ ，然后，计算结果如下：
$v_\pi(s_4)=v_\pi(s_3)=v_\pi(s_2)=10, v_\pi(s_1)=8$
有了state value，求解Action value，考虑 $s_1$ ，有：
$q_\pi(s_1, a_1)=-1+\gamma v_\pi (s_1)=6.2$
$q_\pi(s_1, a_2)=-1+\gamma v_\pi(s_2)=8$
$q_\pi(s_1, a_3)=0+\gamma v_\pi(s_3)=9$
$q_\pi(s_1, a_4)=-1+\gamma v_\pi(s_1)=6.2$
$q_\pi(s_1, a_5)=0+\gamma v_\pi(s_1)=7.2$

那么问题来了，当前策略不太好，如何改善这个策略？这个就依赖Action values。当前的策略 $\pi(a|s_1)$ 可以写为：
$\pi(a|s_1)=\begin{cases}1 & a=a_2 \\0 & a\ne a_2\end{cases}$
根据上面action value，可以发现 $q_\pi (s_1, a_3)=9$ 是最大值，所以如果选择a3作为新策略，那么一个新策略描述为：
$\pi(a|s_1)=\begin{cases}1 & a=a^* \\0 & a\ne a^*\end{cases}$
其中 $a^*=argmax_a q_\pi (s_1, a)=a_3$