PPO算法

最新推荐文章于 2025-05-06 14:23:46 发布

原创最新推荐文章于 2025-05-06 14:23:46 发布

· 3.1k 阅读

10 ·

版权

科研专栏收录该内容

9 篇文章

订阅专栏

博客介绍了在线学习和离线学习的概念，在线学习是同一Agent边互动边学习，离线学习是学习的Agent通过看别人玩来学习。还阐述了重要性采样方法，以及如何利用该技巧将在线学习转换为离线学习。最后重点讲解了PPO算法，其目的是控制与环境交互和更新参数的Model之间的差距。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在线学习和离线学习

在线学习:和环境互动的Agent以及和要学习的Agent是同一个，同一个Agent，一边和环境做互动，一边在学习。
离线学习: 和环境互动及的Agent以和要学习的Agent不是同一个，学习的Agent通过看别人完来学习。

利用新的参数 $\theta\prime$ 去采样一次，然后更新 $\theta$ 多次。那么怎么做呢?利用重要性采样的方法。

重要性采样

$E_{x\sim p}[f(x)] \approx \frac{1}{N}\sum_{i=1}^{N}f(x^i)$

$x^i$ 表示从分布 $p(x)$ 中采样数据，但如果我们无法从 $p(x)$ 分布中采样数据，只能从另一个分布中采样 $q(x)$ $x^i$ 。对期望值进行修正

$E_{x\sim p}[f(x)] = \int f(x)p(x)dx = \int f(x)\frac{p(x)}{q(x)}q(x)dx$

然后可以改成对分布 $q(x)$ 中的取期望值。

$\int f(x)\frac{p(x)}{q(x)}q(x)dx=E_{x\sim q}[f(x)\frac{p(x)}{q(x)}]$

从 $q(x)$ 分布中采样数据，需要再乘以一个weight $\frac{p(x)}{q(x)}$ 以修正两个分布之间的差异。

$E_{x\sim p}[f(x)] \approx E_{x\sim q}[f(x)\frac{p(x)}{q(x)}]$

通过重要性采样技巧将在线学习转换为离线学习

利用 $\theta\prime$ 去和环境做互动，利用搜集到的数据对 $\theta$ 进行更新。当 $\theta$ 更新到一定次数之后，再利用 $\theta\prime$ 重新去和环境做互动。

推导出新的目标函数 $J^{\theta^{\prime}}({\theta})$ , 表示利用 $\theta \prime$ 去采样进而更新参数 $\theta$ 。引用重要性采用的前提是这两个分布不能相差太多，否则结果就会不好，那如何去避免相差太多呢?这就是PPO在做的事情，在训练的时候多加一个限制，希望 $\theta$ 和 $\theta^{\prime}$ 越像越好。PPO的前身是TRPO