【笔记整理】强化学习>>Policy Gradient方法

最新推荐文章于 2024-06-23 08:41:15 发布

xhanZ

最新推荐文章于 2024-06-23 08:41:15 发布

阅读量313

点赞数

CC 4.0 BY-SA版权

分类专栏： Reinforcement Learning

本文链接：https://blog.youkuaiyun.com/weixin_38842968/article/details/84861981

Reinforcement Learning 专栏收录该内容

1 篇文章

订阅专栏

本文深入探讨了强化学习的基本概念，包括智能体与环境的交互、奖励机制及策略优化。重点介绍了策略梯度算法，详细解析了其目标函数、梯度计算及参数更新过程，为理解强化学习提供了清晰的路径。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

强化学习

机器通过“试错”的方式进行学习，类似于动物训练的模式:
智能体Agent与环境Env进行交互，根据Env反馈的reward来进行动作action的优化，逐步形成对reward的预期，最终产生能获得最大利益的习惯性行为，即策略。

目标: 最大化长期回报

下图来自：https://blog.youkuaiyun.com/aliceyangxi1987/article/details/73327378
在这里插入图片描述

基本实现过程

如果agent的某个行为【a】策略导致环境Env反馈一个正向奖赏(强化信号r)，则agent以后产生此行为策略的趋势加强，反之则减弱。
agent根据强化信号【r】和环境当前状态【s】再选择下一个动作【a】，选择的原则是使受到正向奖赏的概率增大。
选择的动作不仅影响立即强化值，且影响环境下一个状态的r和最终的r

与监督学习的区别：

没有标记样本。强化信号是对agent动作的好坏做出评价，而非告诉agent如何产生正确的动作——就像直接测试而不上课的老师。
监督学习相当于直接为各状态进行标记:x=状态,y=应采取的正确动作，
若已知r/A的梯度信息，则可以直接使用监督学习算法，但有时候强化信号r与产生的动作A没有明确的函数形式描述，所以梯度信息无法得到。
因此在强化学习中，需要某种随机单元，使agent在可能动作空间中进行搜索并发现正确的动作。

简要术语&符号

基本概念

Agent - 智能体。学习者、决策者。
Environment/Env - 环境。agent外部的一切。
$s$ - 状态(state)。一个表示环境的数据。
$a$ - 行动(action)。agent可以做的动作。
$\mathcal{A(s)}$ - 状态s的行动集合。agent在状态s下，可以做的所有动作。
$r / R$ - 奖赏(reward)。agent在一个行动后，获得的奖赏。
$\mathcal{R}$ - 所有奖赏集合。本体可以获得的所有奖赏。

$s_t$ - 第t步的状态(state)。t from 0
$a_t$ - 第t步的行动(select action)。t from 0
$r_t$ - 第t步的奖赏(reward)。t from 1
$G_t$ - 第t步的长期回报(return)。t from 0

$π$ : 策略(policy)。

策略规定了状态s时，应该选择的行动a。
$π = [π (s 1), \dots, π (s n)]$
$\pi(s)$ - 策略π在状态s下，选择的行动。
$\pi^∗$ - 最优策略(optimal policy)。
$\pi(a|s)$ - 随机策略π在状态s下，选择的行动a的概率。

$r (s, a)$ - 在状态s下，选择行动a的奖赏。
$r (s, a ， s')$ - 在状态s下，选择行动a，变成(状态s’)的奖赏。
$p (s^{'}, r ∣ s, a)$ - (状态s、行动a)的前提下，变成(状态s’、奖赏r)的概率。
$p (s^{'} ∣ s, a)$ - (状态s、行动a)的前提下，变成(状态s’)的概率。

以下只出现于值函数方法
$v_π(s)$ - 状态价值。使用策略π,(状态s的）长期奖赏 $G_t$ 。
$q_π(s,a)$ - 行动价值。使用策略π,(状态s,行动a的)长期奖赏 $G_t$ 。
$v^∗(s)$ - 最佳状态价值。
$q^∗(s,a)$ - 最佳行动价值。
$V (s)$ - $v_π(s)$ 的集合。
$Q (s, a)$ - $q_π(s,a)$ 的集合。

Returns的计算

Returns即 $r$ ——采取相应动作所能得到的奖励(rewards)。

计算式1：把未来发生的奖励和现在将要得到的奖励放在了同等重要的地位上。从当前时刻的状态到最终结束状态被称作一个片段(episode)，每个时刻的状态被称作一个task(episodic task)：
计算式2：往往不会将将来的reward和当前reward放在同等重要的地位上，因此我们需要加入discount这个元素。公式如下：

$G_t \doteq \sum_{k=0}^{\infty} \gamma^k R_{t+k+1} \\ where \\ k \text{ - the sequence number of an action.} \\ \gamma \text{ - discount rate,} \ 0 \leqslant \gamma \leqslant 1$

即：
在这里插入图片描述
$\gamma$ 是个衰减系数，这样离当前状态越远的reward考虑的程度越弱, $\gamma=1$ 时退化为公式1

Policy Gradient 方法

目标函数：
$\theta ) =E\left(\sum\limits ^{T}_{t=0} R( s_{t} ,a_{t}) ;\pi _{\theta }\right) =\sum\limits _{\tau } P( \tau ;\theta ) R( \tau )$

$\tau=\{s_0,a_0,...,s_T,a_T\}$
$\tau ) =\sum\limits ^{T}_{t=0} r( s_{t} ,a_{t})$ ,序列 $\tau$ 的reward之和
$\tau ;\theta)=p(s_{0})\prod_{t=0}^{T}\pi_\theta( a_{t} | s_{t})p(s_{t+1}|s_{t},a_{t})$ 代表序列 $\tau$ 出现的概率

表示在参数 $\theta$ 控制的策略 $\pi$ 下，序列 $\tau$ 的reward之和的期望

目的：找到最优参数 $\theta$ ，使
$\theta ) =max\sum\limits _{\tau } P( \tau ;\theta ) R( \tau )$

在PG里，用梯度下降法解决，即
$\theta _{new} =\theta _{old} +\alpha \nabla _{\theta } U( \theta )$

如何计算目标函数的梯度？下面一个变换给出：
$\nabla _{\theta } U( \theta )=\nabla _{\theta }\sum\limits _{\tau } P( \tau ;\theta ) R( \tau ) =\sum\limits _{\tau } P( \tau ;\theta )\frac{\nabla _{\theta } P( \tau ;\theta ) R( \tau )}{P( \tau ;\theta )}=\sum\limits _{\tau } P( \tau ;\theta ) R( \tau ) \nabla _{\theta } logP( \tau ;\theta )$
从而梯度的计算转换为“求解 $\tau ) \nabla _{\theta } logP( \tau ;\theta )$ 的期望”

利用【蒙特卡洛法】近似估计，根据当前的策略 $\pi$ 采样得到m条轨迹:
$\nabla _{\theta } U( \theta ) \approx \frac{1}{m}\sum\limits ^{m}_{i=0} R( \tau ) \nabla _{\theta } \log[P( \tau ;\theta )]$

接下来需要求解:
$\nabla_{\theta}\log[P( \tau ;\theta )] = \nabla_{\theta}\log[p(s_{0})\prod_{t=0}^{T}\pi_\theta( a_{t} | s_{t})p(s_{t+1}|s_{t},a_{t})]$
$\nabla_{\theta}[\log p(s_{0}) + \sum_{t=0}^{T}\log[\pi_\theta( a_{t} | s_{t})] + \sum_{t=0}^{T}\log p(s_{t+1}|s_{t},a_{t})]$
$\sum_{t=0}^{T}\nabla_{\theta}\log[\pi_\theta( a_{t} | s_{t})]$
将结果带回原式：
$\nabla _{\theta } U( \theta ) \approx \frac{1}{m}\sum\limits ^{m}_{i=0} R( \tau ) \nabla _{\theta } \log[P( \tau ;\theta )]=\frac{1}{m}\sum\limits ^{m}_{i=0} [[ \sum\limits ^{T}_{t=0} r( s_{i,t} ,a_{i,t}) ]\sum_{t=0}^{T}\nabla_{\theta}\log[\pi_\theta( a_{t} | s_{t})]$
从而得到更新的参数：
$\theta _{new} =\theta _{old} +\alpha \nabla _{\theta } U( \theta )$