【强化学习的数学原理】第07课-时序差分方法-笔记

学习资料:bilibili 西湖大学赵世钰老师的【强化学习的数学原理】课程。链接:强化学习的数学原理 西湖大学 赵世钰


一、例子

例1:
考虑 mean estimation 问题:已知一个随机变量X,求其期望。目前已有的数据是X的一些采样x。这里用RM算法来求解。求解过程见下图,或者回顾上节课内容。
在这里插入图片描述
例2:
该问题比上面那个问题复杂一些,求解的不再是随机变量 X X X 的均值,而是函数 v ( X ) v(X) v(X) 的均值。但求解思路还是差不多。实际上能测量到的是 v ( x ) v(x) v(x),这是对 v ( X ) v(X) v(X) 的采样。
在这里插入图片描述
例3:
该问题比上面那个问题再复杂一些,目标函数中有2个随机变量,且包含了一个函数 v v v。先在在求期望的时候,既需要X的采样x,也需要R的采样r。这个表达式已经和时序差分算法非常相似了。
在这里插入图片描述

二、TD算法介绍

下图呈现了TD算法。
TD算法在求解一个给定策略 π \pi π 的 state value,它是一种不基于模型、基于数据的方法。
TD算法就是要基于给定策略 π \pi π 下,在生成的数据 ( s 0 , r 1 , s 1 , . . . , s t , r t + 1 , s t + 1 , . . . ) (s_0,r_1,s_1,...,s_t,r_{t+1},s_{t+1},...) (s0,r1,s1,...,st,rt+1,st+1,...)的基础上计算state value。
v t ( s ) v_t(s) vt(s) 表示状态 s 在 t 时刻的 state value 估计值。 s t s_t st 表示在 t 时刻所访问到的状态。
下图中的(1)式将会在后面介绍。
下图中的(2)式表示,在t时刻访问了状态 s t s_t st,其他状态没有被访问到,那么这些没有被访问到的状态,其 v 值是不变的。
在这里插入图片描述
继续分析上图中TD算法中的(1)式,即:下图中的(3)式。new estimate = old estimate + 修正项。修正项中的 α t \alpha_t αt 是系数,TD target v ‾ t = r t + 1 + γ v ( s t + 1 ) \overline{v}_t = r_{t+1} + \gamma v(s_{t+1}) vt=rt+1+γv(st+1),设置 TD target 实际上是希望 v t ( s t ) v_t(s_t) vt(st) 可以朝着这个方向去靠近。 TD error 表示当前的 value v t ( s t ) v_t(s_t) vt(st) 和 target v ‾ t = r t + 1 + γ v ( s t + 1 ) \overline{v}_t = r_{t+1} + \gamma v(s_{t+1}) vt=rt+1+γv(st+1) 之间的误差。
在这里插入图片描述
下面来详细介绍一下 TD target 和 TD error。
(1)为什么 v ‾ t \overline{v}_t vt 被称作 TD target?
因为要把 v ( s t ) v(s_t) v(st) 朝着 v ‾ t \overline{v}_t vt 这个方向去改进。
那么改进后的 v t + 1 ( s t ) v_{t+1}(s_t) vt+1(st) 一定比 v t ( s t ) v_t(s_t) vt(st) 更接近 v ‾ t \overline{v}_t vt 吗?
看下图的推导过程,把式子推导成如下图1式所示的结果。因为 1 − α t ( s t ) 1-\alpha_t(s_t) 1αt(st)的值在(0,1)之间,所以可以得到如下图2式所示的结果。所以说, v t + 1 ( s t ) v_{t+1}(s_t) vt+1(st)肯定是更接近 v ‾ t \overline{v}_t

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值