贝尔曼方程详解：从直观到数学证明

最新推荐文章于 2025-10-22 14:17:41 发布

原创

最新推荐文章于 2025-10-22 14:17:41 发布 · 1k 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#RL

贝尔曼方程详解：从直观到数学证明

摘要

本教程旨在为读者提供对贝尔曼方程全面而深入的理解。我们将从马尔可夫决策过程 (MDP) 的基本概念入手，逐步推导贝尔曼期望方程和贝尔曼最优方程，并深入探讨其背后的数学理论，特别是利用压缩映射原理证明其解的存在性和唯一性。本教程的目标是帮助读者不仅掌握贝尔曼方程的计算流程，更能深刻理解其核心思想与在强化学习中的重要作用，从而为进一步学习和研究强化学习算法奠定坚实的理论基础。

—

第一章：引言

1.1 贝尔曼方程：强化学习的基石

贝尔曼方程，由理查德·贝尔曼 (Richard Bellman) 提出，是动态规划 (Dynamic Programming) 和强化学习 (Reinforcement Learning, RL) 领域中的一项奠基性成果 1。它本质上是一个递归方程，巧妙地将复杂的序贯决策问题分解为一系列更小、更易于处理的子问题。在强化学习的语境中，贝尔曼方程为智能体 (agent) 提供了一个数学框架，用以评估其在特定环境中所处状态 (state) 或采取特定动作 (action) 的“价值” (value) 3。此处的“价值”并非瞬时收益，而是指从该状态或状态-动作对开始，遵循某一特定策略 (policy) 或最优策略所能获得的长期累积回报的期望。

贝尔曼方程的重要性体现在其广泛的应用上。几乎所有现代强化学习中基于价值的算法，例如 Q-learning、SARSA、价值迭代 (Value Iteration) 和策略迭代 (Policy Iteration)，其核心都离不开贝尔曼方程的某种形式 3。这些算法通过贝尔曼方程来学习和优化价值函数，进而指导智能体做出最优决策以最大化累积回报。贝尔曼方程通过建立当前状态（或状态-动作对）的价值与后续状态（或状态-动作对）价值之间的关系，使得智能体能够“向前看”，预估其行为的长远影响，而不仅仅是追求眼前的即时奖励。这种将长期目标分解为一系列短期递归关系的能力，是贝尔曼方程赋予强化学习强大问题求解能力的关键。

1.2 教程目标与结构

本教程的核心目标是引导读者超越对贝尔曼方程及其相关算法流程的表面记忆，深入理解其内在的数学原理和直观含义。通过本教程的学习，读者应能从第一性原理出发，理解贝尔曼方程是如何推导出来的，以及为什么它能够有效地解决强化学习中的核心问题——价值评估和最优策略的寻找。

为实现这一目标，本教程将按以下结构展开：

马尔可夫决策过程 (MDP) 基础： 首先，介绍作为强化学习问题形式化描述框架的马尔可夫决策过程。理解 MDP 的组成要素（状态、动作、转移概率、奖励函数、折扣因子）以及核心概念（策略、回报、价值函数）是掌握贝尔曼方程的前提。
贝尔曼期望方程： 详细推导用于评估一个给定策略下状态价值函数 (Vπ(s)) 和动作价值函数 (Qπ(s,a)) 的贝尔曼期望方程。这一部分将阐释价值函数如何通过即时奖励和后续状态的期望价值递归地定义。
贝尔曼最优方程： 进一步推导用于描述最优价值函数 (V∗(s) 和 Q∗(s,a)) 的贝尔曼最优方程。这一部分将引入最优性原理，并解释 max 算子在寻找最优决策中的作用。
数学理论与证明： 深入探讨贝尔曼方程解的存在性和唯一性。这部分将引入贝尔曼算子的概念，并利用压缩映射原理和巴拿赫不动点定理，为贝尔曼方程的良好性质提供严谨的数学证明。
应用实例： 通过一个具体的 Gridworld 示例，演示如何应用贝尔曼期望方程进行策略评估，以及如何应用贝尔曼最优方程进行价值迭代，从而将理论知识与实际计算联系起来。
总结与展望： 回顾贝尔曼方程的核心思想及其在强化学习中的重要性，讨论一些常见的理解误区，并为后续学习提供方向性建议。

本教程鼓励读者在学习过程中主动思考，将抽象的数学符号与直观的决策过程联系起来，理解每一个公式和每一个推导步骤背后的逻辑和意义。

一个值得深入思考的方面是贝尔曼方程所体现的递归思想的普适性。其核心的递归结构 1 不仅仅是一种数学表达技巧，更深刻地体现了“最优性原理” (Principle of Optimality)。该原理指出，一个最优策略的任何子策略，对于其对应的子问题而言，也必须是最优的。这意味着当前状态的价值可以通过其后继状态的价值来递归地定义和计算。这种思想不仅是强化学习的基石，在计算机科学的许多其他分支（例如分治算法、动态规划等）中也扮演着核心角色。理解这种递归结构，是理解贝尔曼方程如何将一个看似复杂的长期目标（最大化累积回报）分解为一系列可管理的、短期的决策步骤的关键。它使得我们能够通过迭代的方式，一步步地逼近真实的价值函数，并最终找到最优的行动方案。

此外，强化学习的核心目标是学习一个能够最大化长期累积回报的策略。贝尔曼方程为此提供了一种量化“处于某个状态有多好”或“在某个状态下采取某个动作有多好”的方法，这便是价值函数的概念 3。几乎所有成功的强化学习应用，无论是简单的表格型问题还是复杂的深度强化学习应用，都依赖于对这些价值的准确估计。贝尔曼方程正是估计这些价值的根本理论依据。因此，对贝尔曼方程的深刻理解，对于掌握整个强化学习领域至关重要，它连接了问题的定义、价值的评估以及最终策略的优化。

—

第二章：马尔可夫决策过程 (MDP) 基础

在深入探讨贝尔曼方程之前，必须首先理解其应用的数学框架——马尔可夫决策过程 (Markov Decision Process, MDP)。MDP 为强化学习问题提供了一种形式化的描述方式，使得我们能够严谨地定义智能体与环境的交互、决策过程以及学习目标 6。

2.1 MDP 的定义与马尔可夫性质

马尔可夫决策过程描述了一个智能体在一系列离散时间步上与一个（通常是随机的）环境交互的过程。在每个时间步，智能体观察到环境的当前状态，并基于此状态选择一个动作。作为响应，环境会转移到一个新的状态，并给予智能体一个即时奖励。

MDP 的核心在于马尔可夫性质 (Markov Property)。该性质规定，系统的下一个状态和获得的奖励仅仅依赖于当前的状态和当前采取的动作，而与所有之前的状态和动作（即历史）无关 6。用数学语言表达，如果 St 和 At 分别表示在时间步 t 的状态和动作，那么状态转移的概率满足：
P(St+1=s′∣St=s,At=a,St−1=st−1,At−1=at−1,…,S0=s0,A0=a0)=P(St+1=s′∣St=s,At=a)
同样地，即时奖励 Rt+1 也只依赖于 (St,At) 或 (St,At,St+1)。马尔可夫性质极大地简化了强化学习问题的建模和分析，因为它允许我们将当前状态视为对未来做出决策所需的全部信息的充分统计量。
虽然马尔可夫性质是一个较强的假设，在现实世界的许多复杂问题中可能并不完全满足（即历史信息可能对未来决策仍然重要），但 MDP 仍然提供了一个强大且可分析的理论框架。许多看似非马尔可夫的问题，有时可以通过状态表示的增强（例如，将部分历史信息编码到当前状态中）来近似为一个 MDP。因此，理解 MDP 的假设及其潜在的局限性，对于将强化学习理论成功应用于实际问题至关重要。知道何时 MDP 是一个合适的模型，以及当它不是一个好的近似时可能出现的问题，是成为一个熟练的强化学习实践者的重要标志。

2.2 MDP 的核心组成要素

一个标准的马尔可夫决策过程通常由以下五个核心要素构成，常表示为一个五元组 (S,A,P,R,γ) 6：

状态集合 (Set of States, S)： 环境所有可能状态的有限或无限集合 9。状态 s∈S 是对环境在某一时刻的完整描述。例如，在机器人导航任务中，状态可以是机器人的位置和姿态；在棋类游戏中，状态是棋盘上所有棋子的布局。
动作集合 (Set of Actions, A)： 智能体可以采取的所有可能动作的有限或无限集合 9。通常，在特定状态 s 下可用的动作集合可能只是 A 的一个子集，表示为 A(s)。例如，在网格世界中，动作可以是向上下左右移动。
状态转移概率函数 (State Transition Probability Function, P)： P(s′∣s,a) 定义了在状态 s 下采取动作 a 后，环境转移到下一个状态 s′ 的概率 3。即 P(s′∣s,a)=P(St+1=s′∣St=s,At=a)。对于所有 s∈S,a∈A(s)，必须满足 ∑s′∈SP(s′∣s,a)=1。这个函数描述了环境的动态特性。有时，转移概率也与奖励一起定义为 P(s′,r∣s,a)，表示在状态 s 采取动作 a 后，转移到状态 s′ 并获得奖励 r 的概率 10。
奖励函数 (Reward Function, R)： 奖励函数定义了智能体在特定转换中获得的即时标量反馈。它可以有多种形式：
- R(s,a): 在状态 s 采取动作 a 后获得的期望即时奖励。R(s,a)=E 6。
- R(s,a,s′): 在状态 s 采取动作 a 并转移到状态 s′ 后获得的即时奖励。奖励是智能体学习的目标信号，智能体的目标是最大化累积的（通常是折扣的）奖励总和。
折扣因子 (Discount Factor, γ)： γ 是一个介于 $$ 之间的参数，用于权衡即时奖励与未来奖励的重要性 3。如果 γ=0，智能体只关心即时奖励（称为“短视的”或 “myopic”）。如果 γ 接近 1，智能体则会更加重视未来的长期回报（称为“有远见的”或 “far-sighted”）。

折扣因子 γ 的作用是多方面的。首先，从数学角度看，当 γ<1 时，它确保了对于持续性任务（没有明确终止状态的任务），未来无限奖励序列的加权和（即回报）是收敛的，从而使得价值函数的定义良好 6。其次，从行为角度看，γ 反映了智能体对奖励时间性的偏好 3。一个只关心下一时刻奖励的机器人 (γ=0) 和一个深谋远虑、规划长远未来的机器人 (γ≈1) 会展现出截然不同的行为模式。此外，在某些解释中，γ 也可以被视为模型在未来步骤中继续存在的概率，即每一步都有 1−γ 的概率任务会终止。因此，γ 的选择不仅仅是一个超参数调整问题，它深刻地影响着智能体的学习目标和最终行为。

2.3 策略与回报

在 MDP 框架下，智能体的行为由其策略决定，其目标是最大化期望的回报。

策略 (Policy, π)： 策略是智能体在给定状态下选择动作的规则或方式 6。它可以是确定性的，即对于每个状态 s，策略 π(s) 直接指定一个动作 a。也可以是随机性的，即策略 π(a∣s) 给出了在状态 s 下选择动作 a 的概率，P(At=a∣St=s)，其中对于所有状态 s，∑a∈A(s)π(a∣s)=1。策略可以被视为智能体的“大脑”，它完整地定义了智能体在任何给定情境下的行为方式。强化学习的最终目标通常是找到一个能够最大化期望回报的最优策略，记为 π∗。
回报 (Return, Gt)： 回报是从时间步 t 开始，未来所有获得的即时奖励的折扣累积和 6。其标准定义为： Gt=Rt+1+γRt+2+γ2Rt+3+⋯=k=0∑∞γkRt+k+1 其中 Rt+k+1 是在时间步 t+k+1 获得的即时奖励。回报是智能体试图通过其行为序列来最大化的目标量。

2.4 价值函数

为了评估一个策略的好坏，或者为了比较不同动作的优劣，强化学习引入了价值函数的概念。价值函数是对未来期望回报的估计。

状态价值函数 (State-Value Function, Vπ(s))： 对于一个给定的策略 π，状态价值函数 Vπ(s) 定义为从状态 s 开始，并此后一直遵循策略 π 所能获得的期望回报 3。数学上表示为： Vπ(s)=Eπ 其中 Eπ[⋅] 表示在智能体遵循策略 π 的情况下，对随机变量（如回报 Gt）求期望。Vπ(s) 量化了在策略 π 下，处于状态 s “有多好”。
动作价值函数 (Action-Value Function, Qπ(s,a))： 对于一个给定的策略 π，动作价值函数 Qπ(s,a) 定义为在状态 s 采取动作 a，并此后一直遵循策略 π 所能获得的期望回报 3。数学上表示为： Qπ(s,a)=Eπ Qπ(s,a) 量化了在策略 π 下，于状态 s 采取动作 a “有多好”。它也被称为 Q-value。

价值函数是连接策略和回报的桥梁。理解策略如何影响价值，以及如何通过价值的改进来优化策略，是后续章节推导贝尔曼方程的核心。

表格1：关键符号及其定义

为了方便后续章节的阅读和理解，下表汇总了本教程中使用的关键数学符号及其定义：

符号 (Symbol)	中文名称 (Chinese Name)	英文名称 (English Name)	定义 (Definition)
S	状态集合	Set of states	环境所有可能状态的集合。
s,s′	状态	State	S 中的一个元素，表示环境的特定配置。
A	动作集合	Set of actions	智能体可以采取的所有可能动作的集合。
A(s)	状态 s 下的动作集合	Set of actions available in state s	在状态 s 下，智能体可以采取的动作子集。
a	动作	Action	A(s) 中的一个元素，表示智能体在状态 s 下选择的一个操作。
P(s′	s,a)	状态转移概率	State transition probability
P(s′,r	s,a)	状态-奖励转移概率	State-reward transition probability
R(s,a) 或 Rsa	奖励函数	Reward function	在状态 s 采取动作 a 后获得的期望即时奖励。
R(s,a,s′)	奖励函数	Reward function	在状态 s 采取动作 a 并转移到状态 s′ 后获得的即时奖励。
γ	折扣因子	Discount