学习资料:bilibili 西湖大学赵世钰老师的【强化学习的数学原理】课程。链接:强化学习的数学原理 西湖大学 赵世钰
文章目录
一、例子:曲线拟合
截止到目前为止,我们所介绍的state value和action value都是以表格的形式呈现的(如下图所示)。这种呈现方式虽然清晰简单,但难以处理很大/连续的状态空间、动作空间。

下面通过一个例子来介绍value function approaximation的基本思想。
假设现在有 ∣ S ∣ |S| ∣S∣个状态,基于给定的策略,每个状态都有一个state value(用下图中的离散点表示,每一个离散点代表状态s对应的state value v(s))。如果状态s的数量非常多,那么储存就耗费很大空间,因此希望用一个函数来拟合这些点。

首先,用一个直线来拟合这些点。如下图所示。 w w w里面包含a和b,是parameter vector; ϕ ( s ) \phi(s) ϕ(s)是特征向量。

用直线进行拟合的好处:节约存储空间。现在不用存储很多状态s的state value,只需要存储两个参数a和b。但缺点是,拟合后的结果只是一个近似值,不那么精确了。
下面是一个非线性的拟合方式,这种方法使用的参数多一些,提高了拟合精度。

简单总结:总体思想是用参数化的函数来拟合状态s的state value。
优点:
(1)节省存储空间
(2)提高泛化性。假如s1/s2/s3是相邻的三个状态,现在episode访问到了s2,需要更新s2的state value,更新后的state value变大。在表格的形式中,s1和s3的state value值是保持不变的。但是在函数的形式中,s2的state value变化后,拟合的函数发生变化(w变化),此时对s1和s3的state value的估计值也更准确。

二、原理-目标函数介绍
v π ( s ) v_{\pi}(s) vπ(s)是state value的真实值, v ^ ( s , w ) \hat{v}(s,w) v^(s,w)是state value的近似值。
我们的目标是找到一个最优的 w w w,使得对于每一个状态 s s s, v ^ ( s , w ) \hat{v}(s,w) v^(s,w)都能最好地近似 v π ( s ) v_{\pi}(s) vπ(s)。
为了寻找最优的 w w w,我们定义如下目标函数:

值得指出的是, S S S是一个随机变量,既然是一个随机变量,这个随机变量就是有概率分布的。那么S的概率分布是什么呢?有几种方式来定义S的概率分布。
第一种方式是均匀分布。这种方式下,每一个状态的权重都是一样的,一共有 ∣ S ∣ |S| ∣S∣个状态,那每一个状态的权重就是 1 / ∣ S ∣ 1/|S| 1/∣S∣。但这样的缺点在于,并不是每一个状态都是同等重要,有的状态更重要,我们需要这样的状态权重高一点,计算的误差小一点。

第二种方式是stationary distribution。在这种方式下,从某一个状态开始,不断地和环境进行交互,交互很多次之后,就达到了一种平稳的状态,在这种平稳的状态下,能够计算出,每一个状态出现的概率是多少。这个概率分布用 d π ( s ) d_{\pi}(s) dπ(s)来表示,基于 d π ( s ) d_{\pi}(s) dπ(s)可以把目标函数写成如下图所示的形式。 d π ( s ) d_{\pi}(s) dπ(s)实际上扮演了权重的角色。

stationary distribution是状态state 的概率分布,从当前状态出发,跑了很多很多步之后达到的一种平稳的分布。它也被称作steady-state distribbution或者limiting distribution。
下图展示了一个例子。用 n π ( s ) n_{\pi}(s)

最低0.47元/天 解锁文章
9758

被折叠的 条评论
为什么被折叠?



