【强化学习】强化学习数学基础：时序差分方法

最新推荐文章于 2025-11-15 23:17:45 发布

原创

最新推荐文章于 2025-11-15 23:17:45 发布 · 978 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#强化学习 #TD learning #Sarsa #Q-learning #时序差分方法

本文详细介绍了时序差分学习(TDlearning)在强化学习中的作用，包括状态值和动作值的估计。TDlearning是一种模型自由的学习方法，通过迭代更新来逼近贝尔曼方程。文章举例说明了TDlearning如何工作，从简单的均值估计问题到更复杂的动态环境问题。此外，还讨论了Sarsa、预期Sarsa和n步Sarsa以及Q-learning算法，这些算法都是TDlearning的变体，用于估计最优动作值。Q-learning是直接寻找最优策略的off-policy方法，而Sarsa则结合了当前策略的更新。最后，文章指出所有这些算法都是解决贝尔曼方程的近似算法，用于在无模型的情况下进行策略评估和改进。

时序差分方法

Temporal Difference Learning

Temporal Difference Learning

本文主要介绍temporal-difference(TD) learning，这是一个在强化学习领域比较知名的方法。Monte Carlo（MC）learning是第一种model-free方法，TD learning是第二种model-free方法。与MC方法相比，TD算法有很多优势。本文我们将研究如何将stochastic approximate methods应用于TD learning。

举个例子

首先，考虑一个简单的mean estimation问题：计算 $w=\mathbb{E}[X]$ 基于 $X$ 的一些iid采样 ${x\}$ 。
求解过程：

将上式重写为 $g(w)=w-\mathbb{E}[X]$ ，我们可以将问题reformulate为一个root-finding问题 $g (w) = 0$
因为我们仅能获得 $X$ 中的一些采样 ${x\}$ ，那么观察到的噪声表示为 $\tilde{g}(w, \eta)=w-x=(w-\mathbb{E}[X])+(\mathbb{E}[X]-x)\doteq g(w)+\eta$
根据之前的RM算法求解 $g (w) = 0$ ，即 $w_{k+1}=w_k-\alpha_k\tilde{g}(w_k, \eta_k)=w_k-\alpha_k(w_k-x_k)$

然后，考虑一个稍微复杂的问题。估计一个函数 $v (X)$ 的mean：$ $w=\mathbb{E}[v(X)]$ 基于 $X$ 的一些iid采样 ${x\}$ 。
求解过程：

首先定义 $g(w)=w-\mathbb{E}[v(X)]$ ，然后 $\tilde{g}(w, \eta)=w-v(x)=(w-\mathbb{E}[v(X)])+(\mathbb{E}[v(X)]-v(x))\doteq g(w)+\eta$
然后问题变为 $g (w) = 0$ 的求根问题，对应的RM算法是 $w_{k+1}=w_k-\alpha_k\tilde{g}(w_k, \eta_k)=w_k-\alpha_k(w_k-v(x_k))$

再看一个例子，考虑一个更加复杂的问题。计算 $w=\mathbb{E}[R+\gamma v(X)]$ 其中 $R, X$ 是随机变量， $\gamma$ 是一个常数， $v(\cdot)$ 是一个函数.
求解过程：

假设我们可以获得 $X$ 和 $R$ 的采样 ${x\}$ 和 ${r\}$ ，定义 $g(w)=w-\mathbb{E}[R+\gamma v(X)]$ ，然后 $\tilde{g}(w, \eta)=w-(r+\gamma v(x))=(w-\mathbb{E}[R+\gamma v(X)])+(\mathbb{E}[R+\gamma v(X)]-(r+\gamma v(x)))\doteq g(w)+\eta$
然后问题变成了 $g (w) = 0$ 的求根问题，那么对应的RM算法是 $w_{k+1}=w_k-\alpha_k\tilde{g}(w_k, \eta_k)=w_k-\alpha_k(w_k-(r_k+\gamma v(x_k)))$

小结一下，上面三个例子越来越复杂，但是都可以通过RM算法进行求解。

TD learning of state values

TD learning既可以指一大类的强化学习算法，也可以指一个具体的estimating state values的算法。TD算法是基于数据，也就是不基于模型来实现强化学习。

算法描述

TD算法要求的data/experience如下：

The TD learning algorithm如下：

其中 $t = 0, 1, 2, ...$ ，这里的 $v_t(s_t)$ 是 $v_\pi (s_t)$ 的estimated state value，s是state space， $\alpha_t(s_t)$ 是在 $t$ 时刻 $s_t$ 的学习率。