【强化学习的数学原理】第07课-时序差分方法-笔记

最新推荐文章于 2025-12-23 12:24:01 发布

原创

最新推荐文章于 2025-12-23 12:24:01 发布 · 861 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#笔记

学习资料：bilibili 西湖大学赵世钰老师的【强化学习的数学原理】课程。链接：强化学习的数学原理西湖大学赵世钰

文章目录

一、例子
二、TD算法介绍
三、TD算法收敛性、与MC的比较
四、Sarsa
五、Expected Sarsa 和 n-step Sarsa
六、Q-learning介绍、 on-policy vs off-policy
七、Q-learning 伪代码与例子
八、TD算法的统一形式和总结

一、例子

例1：
考虑 mean estimation 问题：已知一个随机变量X，求其期望。目前已有的数据是X的一些采样x。这里用RM算法来求解。求解过程见下图，或者回顾上节课内容。
在这里插入图片描述
例2：
该问题比上面那个问题复杂一些，求解的不再是随机变量 $X$ 的均值，而是函数 $v (X)$ 的均值。但求解思路还是差不多。实际上能测量到的是 $v (x)$ ，这是对 $v (X)$ 的采样。

例3：
该问题比上面那个问题再复杂一些，目标函数中有2个随机变量，且包含了一个函数 $v$ 。先在在求期望的时候，既需要X的采样x，也需要R的采样r。这个表达式已经和时序差分算法非常相似了。
在这里插入图片描述

二、TD算法介绍

下图呈现了TD算法。
TD算法在求解一个给定策略 $\pi$ 的 state value，它是一种不基于模型、基于数据的方法。
TD算法就是要基于给定策略 $\pi$ 下，在生成的数据 $s_0,r_1,s_1,...,s_t,r_{t+1},s_{t+1},...)$ 的基础上计算state value。
$v_t(s)$ 表示状态 s 在 t 时刻的 state value 估计值。 $s_t$ 表示在 t 时刻所访问到的状态。
下图中的（1）式将会在后面介绍。
下图中的（2）式表示，在t时刻访问了状态 $s_t$ ，其他状态没有被访问到，那么这些没有被访问到的状态，其 v 值是不变的。
在这里插入图片描述
继续分析上图中TD算法中的（1）式，即：下图中的（3）式。new estimate = old estimate + 修正项。修正项中的 $\alpha_t$ 是系数，TD target $\overline{v}_t = r_{t+1} + \gamma v(s_{t+1})$ ，设置 TD target 实际上是希望 $v_t(s_t)$ 可以朝着这个方向去靠近。 TD error 表示当前的 value $v_t(s_t)$ 和 target $\overline{v}_t = r_{t+1} + \gamma v(s_{t+1})$ 之间的误差。
在这里插入图片描述
下面来详细介绍一下 TD target 和 TD error。
（1）为什么 $\overline{v}_t$ 被称作 TD target？
因为要把 $v(s_t)$ 朝着 $\overline{v}_t$ 这个方向去改进。
那么改进后的 $v_{t+1}(s_t)$ 一定比 $v_t(s_t)$ 更接近 $\overline{v}_t$ 吗？
看下图的推导过程，把式子推导成如下图1式所示的结果。因为 $1-\alpha_t(s_t)$ 的值在(0,1)之间，所以可以得到如下图2式所示的结果。所以说， $v_{t+1}(s_t)$ 肯定是更接近 $\overline{v}_t$