【强化学习的数学原理】第08课-值函数近似-笔记

最新推荐文章于 2025-12-18 10:34:05 发布

原创

最新推荐文章于 2025-12-18 10:34:05 发布 · 1k 阅读

20 ·

CC 4.0 BY-SA版权

文章标签：

#笔记

学习资料：bilibili 西湖大学赵世钰老师的【强化学习的数学原理】课程。链接：强化学习的数学原理西湖大学赵世钰

文章目录

一、例子：曲线拟合
二、原理-目标函数介绍
三、原理-优化算法和函数选择
四、原理-示例与分析
五、Sarsa和Q-learning
六、Deep Q-learning (DQN) 基本原理
七、Deep Q-learning (DQN) Experience replay（经验回放）
八、Deep Q-learning (DQN) 代码与例子

一、例子：曲线拟合

截止到目前为止，我们所介绍的state value和action value都是以表格的形式呈现的（如下图所示）。这种呈现方式虽然清晰简单，但难以处理很大/连续的状态空间、动作空间。
在这里插入图片描述
下面通过一个例子来介绍value function approaximation的基本思想。
假设现在有 $∣ S ∣$ 个状态，基于给定的策略，每个状态都有一个state value（用下图中的离散点表示，每一个离散点代表状态s对应的state value v(s)）。如果状态s的数量非常多，那么储存就耗费很大空间，因此希望用一个函数来拟合这些点。
在这里插入图片描述
首先，用一个直线来拟合这些点。如下图所示。 $w$ 里面包含a和b，是parameter vector; $\phi(s)$ 是特征向量。

用直线进行拟合的好处：节约存储空间。现在不用存储很多状态s的state value，只需要存储两个参数a和b。但缺点是，拟合后的结果只是一个近似值，不那么精确了。
下面是一个非线性的拟合方式，这种方法使用的参数多一些，提高了拟合精度。
在这里插入图片描述
简单总结：总体思想是用参数化的函数来拟合状态s的state value。
优点：
（1）节省存储空间
（2）提高泛化性。假如s1/s2/s3是相邻的三个状态，现在episode访问到了s2，需要更新s2的state value，更新后的state value变大。在表格的形式中，s1和s3的state value值是保持不变的。但是在函数的形式中，s2的state value变化后，拟合的函数发生变化（w变化），此时对s1和s3的state value的估计值也更准确。
在这里插入图片描述

二、原理-目标函数介绍

$v_{\pi}(s)$ 是state value的真实值， $\hat{v}(s,w)$ 是state value的近似值。
我们的目标是找到一个最优的 $w$ ，使得对于每一个状态 $s$ ， $\hat{v}(s,w)$ 都能最好地近似 $v_{\pi}(s)$ 。

为了寻找最优的 $w$ ，我们定义如下目标函数：
在这里插入图片描述

值得指出的是， $S$ 是一个随机变量，既然是一个随机变量，这个随机变量就是有概率分布的。那么S的概率分布是什么呢？有几种方式来定义S的概率分布。

第一种方式是均匀分布。这种方式下，每一个状态的权重都是一样的，一共有 $∣ S ∣$ 个状态，那每一个状态的权重就是 $1/∣ S ∣$ 。但这样的缺点在于，并不是每一个状态都是同等重要，有的状态更重要，我们需要这样的状态权重高一点，计算的误差小一点。
在这里插入图片描述

第二种方式是stationary distribution。在这种方式下，从某一个状态开始，不断地和环境进行交互，交互很多次之后，就达到了一种平稳的状态，在这种平稳的状态下，能够计算出，每一个状态出现的概率是多少。这个概率分布用 $d_{\pi}(s)$ 来表示，基于 $d_{\pi}(s)$ 可以把目标函数写成如下图所示的形式。 $d_{\pi}(s)$ 实际上扮演了权重的角色。
在这里插入图片描述
stationary distribution是状态state 的概率分布，从当前状态出发，跑了很多很多步之后达到的一种平稳的分布。它也被称作steady-state distribbution或者limiting distribution。