【强化学习】强化学习数学基础：贝尔曼公式

最新推荐文章于 2025-10-22 14:17:41 发布

原创

最新推荐文章于 2025-10-22 14:17:41 发布 · 2.6k 阅读

35 ·

CC 4.0 BY-SA版权

文章标签：

#强化学习 #数学基础 #贝尔曼公式 #state value #action value

文章介绍了强化学习中的核心概念——贝尔曼公式，通过状态值和动作值来评估策略的优劣。贝尔曼公式描述了状态值之间的关系，可以用来进行策略评估。文章通过示例展示了如何利用矩阵-向量形式的贝尔曼公式计算状态值，并探讨了求解状态值和动作值的方法。

强化学习数学基础：贝尔曼公式

强化学习的数学原理课程总览
贝尔曼公式（Bellman Equation）
参考资料

强化学习的数学原理课程总览

强化学习数学基础总览图

贝尔曼公式（Bellman Equation）

一个核心的概念：状态值（state value）
一个基础工具：the Bellman equation

一个示例

**为什么return是重要的？**首先我们根据一个轨迹（trajectory）获得rewards的（discounted）sum。如下所示：

根据上图所示，有两个问题：

问题1：从s1点出发，哪种policy是“best”？，哪一个是“worst”？
直观上看，第一个是最优的，第二个是最差的，这是因为第二个经过了forbidden area。
问题2：是否可以用数学公式描述这样一种直观感觉？
可以，使用return来评估policies。

基于策略1（左边图），从s1开始，the discounted return计算如下：
$return_1=0+\gamma 1+\gamma ^21+...=\gamma (1+\gamma +\gamma ^2+...)=\frac{\gamma }{1-\gamma }$
基于策略2（中间图），从s1开始，the discounted return是：
$return_2=-1+\gamma 1+\gamma ^21+...=-1+\gamma (1+\gamma +\gamma ^2+...)=-1+\frac{\gamma }{1-\gamma }$
策略3是随机性的，基于第三个策略（右边图），从s1出发，discounted return是：
$return_3=0.5(-1+\frac{\gamma }{1-\gamma } )+0.5(\frac{\gamma }{1-\gamma } )=-0.5+\frac{\gamma }{1-\gamma }$