学习资料:bilibili 西湖大学赵世钰老师的【强化学习的数学原理】课程。链接:强化学习的数学原理 西湖大学 赵世钰
文章目录
一、例子
例1:
考虑 mean estimation 问题:已知一个随机变量X,求其期望。目前已有的数据是X的一些采样x。这里用RM算法来求解。求解过程见下图,或者回顾上节课内容。

例2:
该问题比上面那个问题复杂一些,求解的不再是随机变量 X X X 的均值,而是函数 v ( X ) v(X) v(X) 的均值。但求解思路还是差不多。实际上能测量到的是 v ( x ) v(x) v(x),这是对 v ( X ) v(X) v(X) 的采样。

例3:
该问题比上面那个问题再复杂一些,目标函数中有2个随机变量,且包含了一个函数 v v v。先在在求期望的时候,既需要X的采样x,也需要R的采样r。这个表达式已经和时序差分算法非常相似了。

二、TD算法介绍
下图呈现了TD算法。
TD算法在求解一个给定策略 π \pi π 的 state value,它是一种不基于模型、基于数据的方法。
TD算法就是要基于给定策略 π \pi π 下,在生成的数据 ( s 0 , r 1 , s 1 , . . . , s t , r t + 1 , s t + 1 , . . . ) (s_0,r_1,s_1,...,s_t,r_{t+1},s_{t+1},...) (s0,r1,s1,...,st,rt+1,st+1,...)的基础上计算state value。
v t ( s ) v_t(s) vt(s) 表示状态 s 在 t 时刻的 state value 估计值。 s t s_t st 表示在 t 时刻所访问到的状态。
下图中的(1)式将会在后面介绍。
下图中的(2)式表示,在t时刻访问了状态 s t s_t st,其他状态没有被访问到,那么这些没有被访问到的状态,其 v 值是不变的。

继续分析上图中TD算法中的(1)式,即:下图中的(3)式。new estimate = old estimate + 修正项。修正项中的 α t \alpha_t αt 是系数,TD target v ‾ t = r t + 1 + γ v ( s t + 1 ) \overline{v}_t = r_{t+1} + \gamma v(s_{t+1}) vt=rt+1+γv(st+1),设置 TD target 实际上是希望 v t ( s t ) v_t(s_t) vt(st) 可以朝着这个方向去靠近。 TD error 表示当前的 value v t ( s t ) v_t(s_t) vt(st) 和 target v ‾ t = r t + 1 + γ v ( s t + 1 ) \overline{v}_t = r_{t+1} + \gamma v(s_{t+1}) vt=rt+1+γv(st+1) 之间的误差。

下面来详细介绍一下 TD target 和 TD error。
(1)为什么 v ‾ t \overline{v}_t vt 被称作 TD target?
因为要把 v ( s t ) v(s_t) v(st) 朝着 v ‾ t \overline{v}_t vt 这个方向去改进。
那么改进后的 v t + 1 ( s t ) v_{t+1}(s_t) vt+1(st) 一定比 v t ( s t ) v_t(s_t) vt(st) 更接近 v ‾ t \overline{v}_t vt 吗?
看下图的推导过程,把式子推导成如下图1式所示的结果。因为 1 − α t ( s t ) 1-\alpha_t(s_t) 1−αt(st)的值在(0,1)之间,所以可以得到如下图2式所示的结果。所以说, v t + 1 ( s t ) v_{t+1}(s_t) vt+1(st)肯定是更接近 v ‾ t \overline{v}_t

最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



