PPO理解

最新推荐文章于 2025-03-15 20:07:28 发布

Pang冉

最新推荐文章于 2025-03-15 20:07:28 发布

阅读量882

点赞数

本文链接：https://blog.youkuaiyun.com/qq_36979202/article/details/113632474

版权

PPO原文链接

由于TRPO实现起来需要使用二阶近似和共轭梯度，比较复杂，Deepmind又在TRPO的基础上提出了实现较为简单的PPO算法。

TRPO

TRPO的优化目标为

用惩罚项代替约束项后

Adaptive KL Penalty Coefficient

PPO1为了避免TRPO中超参数 $\beta$ 的选择，采用自适应确定参数的方法

$\beta$ 由以下条件确定

Clipped Surrogate Objective

为了限制更新步长，原文还提出了PPO2，这是默认的PPO算法，因为PPO2的实验效果比PPO1更好。做法是在优化目标中加入一个clip函数

这里 $r (t)$ 代表新旧策略动作的概率比，这样对策略更新速度进行了裁剪，防止参数更新过快

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Pang冉

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

DRL基础（十二）——近端策略优化算法PPO【附代码】

二向箔

09-14

1863

2016年10月OpenAI公司发布了《Dota2》强化学习游戏智能体OpenAI Five，并且经过多年的开发训练后战胜了当时的世界冠军团队OG，技术细节可以看发表的论文。OpenAI Five的核心算法是PPO，一种称为近端策略优化的算法，属于策略梯度算法的一种。OpenAI Five和PPO的成功大大增加了AI研究者对强化学习解决复杂问题的信心，PPO也成为使用强化学习解决各类问题的一个基准算法。 PPO属于策略梯度算法，即通过求解强化学习问题中目标函数的梯度，利用梯度提升的方法训练强化学习智能体。这

如何理解PPO算法的核心操作clip

ZYunfei的博客

04-13

5933

回顾传统的策略梯度算法以下式作为策略网络的损失： g^=E^t[∇θlog⁡πθ(at∣st)A^t]\hat{g}=\hat{\mathbb{E}}_{t}\left[\nabla_{\theta} \log \pi_{\theta}\left(a_{t} \mid s_{t}\right) \hat{A}_{t}\right]g^=E^t[∇θlogπθ(at∣st)A^t] 具体在代码实现中就是计算log⁡πθ(at∣st)A^t\log \pi_{\theta}\left(a_{t}

参与评论您还未登录，请先登录后发表或查看评论

强化学习------PPO算法

niulinbiao的博客

10-27

3万+

PPO算法之所以被提出，根本原因在于在处理连续动作空间时取值抉择困难。取值过小，就会导致深度强化学习收敛性较差，陷入完不成训练的局面，取值过大则导致新旧策略迭代时数据不一致，造成学习波动较大或局部震荡。除此之外，因为在线学习的性质，进行迭代策略时原先的采样数据无法被重复利用，每次迭代都需要重新采样；同样地置信域策略梯度算法虽然利用重要性采样、共轭梯度法求解提升了样本效率、训练速率等，但在处理函数的二阶近似时会面临计算量过大，以及实现过程复杂、兼容性差等缺陷。而PPO算法具备。

【强化学习】PPO算法代码详解

最新发布

weixin_62403234的博客

03-15

599

是一种用于强化学习的策略优化算法，由OpenAI在2017年提出。PPO结合了策略梯度方法的优点和信任区域优化（Trust Region Optimization）的思想，旨在实现高效、稳定的策略优化。它已成为强化学习中最常用的算法之一，广泛应用于各种任务，如游戏、机器人控制和自然语言处理等。PPO的核心目标是通过，确保每次更新后的策略不会与之前的策略偏离太远，从而避免训练过程中的不稳定性和崩溃。具体来说，PPO通过引入一个“剪裁”（clipping）机制，限制策略更新的幅度，使其在一个安全的范围内进行。

Proximal Policy Optimization (PPO)详解

ygp12345的博客

10-11

6463

文章目录From on-policy to off-policyAdd Constraint From on-policy to off-policy Using the experience more than once Add Constraint

人人都能看懂的PPO原理与源码解读

zenRRan的博客

02-09

2682

来自：大猿搬砖简记大家好，最近我又读了读RLHF的相关paper和一些开源实践，有了一些心得体会，整理成这篇文章。过去在RLHF的初学阶段，有一个问题最直接地困惑着我：如何在NLP语境下理解强化学习的框架？例如，我知道强化学习中有Agent、Environment、Reward、State等要素，但是在NLP语境中，它们指什么？语言模型又是如何根据奖励做更新的？为了解答这个问题，我翻阅了很多资料，...

强化学习PPO从理论到代码详解(2)---PPO1和PPO2

BruceXee的博客

01-02

5760

上一节我们了解了什么是策略梯度，本节开始讲PPO理论之前，我们先提出一个概念，什么在线学习，什么离线学习。

PPO

03-15

**PPO算法详解** PPO（Proximal Policy Optimization）是一种在强化学习中广泛使用的策略优化算法，由OpenAI在2017年的研究论文中提出。...通过理解并掌握PPO算法，我们可以更好地解决那些需要智能决策的复杂问题。

大模型入门：RLHF中的PPO算法理解

2401_86154451的博客

07-24

1369

2）在准备好SFT模型和Reward模型后，一般来说是以SFT模型初始话Actor（策略模型），Ref（用于约束策略模型的参数变化量），Critic（价值模型），Reward（对策略的执行反馈即时的奖励）4个模型，Ref和Reward代表着环境对Actor的奖励或约束，参数是不会更新的，而Actor和Critic是会迭代优化的。如上面的例子中，在状态。蒙特卡洛因为采样了完整的序列，能更精准的估计奖励值，可以认为是无偏的估计，但因为序列越长，序列之间的差异越大，会产生较大的方差，导致收敛很慢；

李宏毅强化学习ppo算法ppt

04-11

本文将基于李宏毅教授关于PPO算法的PPT内容进行深入解析，旨在帮助读者理解PPO算法的核心思想及其工作原理。 #### PPO算法概述 PPO算法是由OpenAI提出的一种默认的强化学习算法，它是在Policy Gradient方法的基础...

什么是PPO-白话版

yxx122345的博客

09-03

518

PPO 让 AI 在学习过程中每次只做一点点改变，这样可以让训练变得更稳、更好。它简单、高效，是很多强化学习任务的首选算法。

深度强化学习PPO算法(python)

08-23

基于Tensorflow实现的PPO算法，依赖库：tensorflow-1.4及以上，gym

强化学习之PPO算法

GamBleout的博客

09-05

796

PPO算法，全称为Proximal Policy Optimization（近端策略优化），是一种强化学习算法。它由OpenAI在2017年提出，旨在解决策略梯度方法中的一些问题，特别是训练过程中的不稳定性和计算复杂度高的问题。PPO算法通过限制策略更新的步长，使得训练过程更加稳定高效，从而在多个领域得到了广泛应用。

强化学习术语与超参数整理(PPO)

Vulcan_S的博客

07-24

6610

强化学习术语与PPO各个框架超参数整理

PPO算法经典论文阅读

赛亚茂的博客

08-23

4498

首先在论文的引言部分给出了经典的强化学习算法的不足之处:许多的经典强化学习算法在大型的模型、数据采样效率、鲁棒性(无需手动超参调整)上都有很大的提升空间。Q-Learning算法(包括函数逼近类算法)在许多简单问题上应用存在局限性,例如要满足状态空间与动作空间的离散型要求，并且其理解起来也是一件很困难的事情、而vanilla policy gradient算法的数据效率与鲁棒性较差、置信域优化算法(TRPO)相对来说比较复杂，而且对于包含噪声或参数共享(在策略函数与价值函数之间有其他的辅助任务需求)的网

深度增强学习PPO（Proximal Policy Optimization）算法源码走读

热门推荐

世事难料，保持低调

05-27

10万+

OpenAI出品的baselines项目是一系列reinforcement learning（强化学习或增强学习）算法的实现。现在已经有包括DQN,DDPG,TRPO,A2C,ACER,PPO在内的近十种经典算法实现，同时它也在不断扩充中。它为对RL算法的复现验证和修改实验提供了很大的便利。本文主要走读其中的PPO（Proximal Policy Optimization）算法的源码实现。PPO是...

PPO(Proximal Policy Optimization)算法原理及实现,详解近端策略优化

weixin_41106546的博客

04-04

9万+

接着上面的讲，PG方法一个很大的缺点就是参数更新慢，因为我们每更新一次参数都需要进行重新的采样，这其实是中on-policy的策略，即我们想要训练的agent和与环境进行交互的agent是同一个agent；与之对应的就是off-policy的策略，即想要训练的agent和与环境进行交互的agent不是同一个agent，简单来说，就是拿别人的经验来训练自己。举个下棋的例子，如果你是通过自己下棋来不断提升自己的棋艺，那么就是on-policy的，如果是通过看别人下棋来提升自己，那么就是off-policy的。

PPO(Proximal Policy Optimization Algorithms)论文解读及实现

weixin_42529756的博客

07-15

2350

ppo强化学习论文解读及代码实现

强化学习笔记：近端策略优化（PPO）

weixin_43466027的博客

06-01

1394

本文来自于datawhalechina的强化学习教程。原文地址：https://datawhalechina.github.io/easy-rl/#/chapter5/chapter5 0x01 On-policy & Off-policy 在强化学习中，我们要让agent学习能够使得Q值尽可能大的策略。如果做更新的策略和与环境互动的策略是同一个的话，称为On-policy；如果不是同一个的话，称为Off-policy。 On-policy是比较麻烦的。我们以经典的策略梯度算法为例，每.

强化学习PPO GAE理解

03-12

### PPO 和 GAE 的概念 #### 近端策略优化 (PPO) 近端策略优化是一种用于解决连续动作空间下的强化学习问题的方法。该方法旨在通过限制每次更新时新旧策略之间的差异来提高训练稳定性[^1]。核心思想是在保持当前策略性能的同时逐步改进它，而不是一次性大幅度调整参数。具体来说，PPO 使用了一个称为“剪切比例”的机制，在损失函数中加入了一项惩罚因子，当新的概率分布相对于旧的概率分布变化过大时会触发此惩罚。公式表示如下： \[ L^{CLIP}(\theta) = \hat{\mathbb{E}}_t[\min(r_t(\theta)\hat{A}_t, clip(r_t(\theta), 1-\epsilon, 1+\epsilon)\hat{A}_t)] \] 其中 $ r_t(\theta)=\frac{\pi_\theta(a|s)}{\pi_{\theta_{old}}(a|s)} $，即新旧策略下采取相同行动的概率之比；$clip$ 函数用来控制比率的变化范围不超过设定阈值 $\epsilon$ ，从而防止过度偏离原有策略。 ```python def ppo_loss(new_policy_prob, old_policy_prob, advantage, epsilon=0.2): ratio = new_policy_prob / old_policy_prob clipped_ratio = torch.clamp(ratio, 1 - epsilon, 1 + epsilon) surrogate_objective = torch.min(ratio * advantage, clipped_ratio * advantage).mean() return -surrogate_objective ``` #### 广义优势估计 (GAE) 广义优势估计提供了一种计算状态价值与实际回报之间差别的有效方式，有助于减少方差并加速收敛过程。其基本思路是利用历史数据对未来奖励进行预测，并基于这些预测评估当前决策的好坏程度[^2]。 GAE 结合了蒙特卡洛采样和TD-learning的优点，既能够获得较为准确的价值估计又不会因为过深的时间跨度而导致高估偏差。具体的计算公式为: \[ A(s,a)=\sum_{l=0}^{\infty}\left(\gamma \lambda\right)^{l}\delta_{t+l} \] 这里 $\delta_{t}=r(s)+\gamma V(s')-V(s)$ 表示即时奖励加上下一时刻的状态价值减去现有时态的价值，而 $\gamma$ 是折扣系数，决定了未来收益的重要性权重;$\lambda$ 则是一个介于0到1之间的超参，调节不同长度轨迹的影响力度。 ```python def generalized_advantage_estimation(rewards, values, gamma=0.99, lamda=0.95): advantages = [] gae = 0 for i in reversed(range(len(rewards))): delta = rewards[i] + gamma * values[i+1] - values[i] gae = delta + gamma * lamda * gae advantages.insert(0, gae) return np.array(advantages) ``` ### 应用场景这两种技术广泛应用于各种复杂的环境模拟以及真实世界的任务规划当中。例如机器人导航、游戏AI开发等领域都可以看到它们的身影。特别是在处理具有挑战性的序列决策问题方面表现出色，比如自动驾驶汽车路径选择或者金融市场的投资组合管理等复杂多变的任务环境中。