【强化学习】强化学习数学基础：值迭代与策略迭代

最新推荐文章于 2025-10-06 12:17:47 发布

原创

最新推荐文章于 2025-10-06 12:17:47 发布 · 2.6k 阅读

31 ·

CC 4.0 BY-SA版权

文章标签：

#强化学习 #值迭代 #策略迭代 #截断策略迭代 #贝尔曼最优公式

值迭代和策略迭代是强化学习中两种重要的算法，用于解决贝尔曼最优公式。值迭代从一个初始值出发，通过不断迭代逼近最优状态值和策略。策略迭代则从初始策略开始，通过策略评估和策略改善逐步优化策略，直至找到最优策略。截断策略迭代是策略迭代的一种变体，限制了策略评估步骤的迭代次数。这些算法在实际应用中需要平衡计算效率和收敛速度。

1. 值迭代算法（Value iteration algorithm）

如下，如何求解Bellman Optimality Equation？ $v=f(v)=\max_{\pi}(r_\pi +\gamma P_\pi v)$
根据之前的内容，我们知道可以采用contraction mapping theorem使用迭代算法求解： $v_{k+1}=f(v_k)=\max_{\pi} (r_\pi +\gamma P_\pi v_k), k=1,2,3,...$ ，其中 $v_0$ 是一个任意值。

该算法最终能够发现最优状态值（optimal state value）和一个最优策略（optimal policy）
该算法被称为value iteration

值迭代算法详细过程： $v_{k+1}=f(v_k)=\max_\pi (r_\pi +\gamma P_\pi v_k), k=1,2,3...$ 可以分解为两部：

Step 1: policy update，这一步是求解 $\pi_{k+1}=arg\max_\pi (r_\pi +\gamma P_\pi v_k)$ 其中 $v_k$ 是给定的
Step 2: value update， $v_{k+1}=r_{\pi_{k+1}}+\gamma P_{\pi_{k+1}}v_k$

问题： $v_k$ 是不是一个state value？当然不是，因为不能确定 $v_k$ 满足一个贝尔曼等式（Bellman equation）。

接下来，我们要研究elementwise form，目的是实现算法。

Matrix-vector form适合于理论分析
Elementwise form适合算法实现

Step1: Policy update
elementwise form如下： $\pi_{k+1}=arg\max_\pi (r_\pi +\gamma P_\pi v_k)$ 即

上面最优化问题的最优解是 $\pi_{k+1}(a|s)=\begin{cases}1 & a = a_k^*(s)\\0 & a\ne a_k^*(s)\end{cases}$ 其中 $a_k^*=arg\max_a q_k(a, s)$ 。 $\pi_{k+1}$ 被称为greedy policy，因为简单地选择最大的q-value。

Step2: Value update
elementwise form: $v_{k+1}=r_{\pi_{k+1}}+\gamma P_{\pi_{k+1}}v_k$ 即

因为 $\pi_{k+1}$ 是greedy，上面等式可以简化为 $v_{k+1}(s)=\max_{a} q_k(a, s)$