强化学习笔记【5】近端策略优化（PPO）算法

最新推荐文章于 2025-01-25 21:16:13 发布

开心果小李

最新推荐文章于 2025-01-25 21:16:13 发布

阅读量3.5k

点赞数 5

文章标签：强化学习李宏毅学习笔记

本文链接：https://blog.youkuaiyun.com/qq_41030408/article/details/119208509

版权

该系列主要是听李宏毅老师的《深度强化学习》过程中记下的一些听课心得，除了李宏毅老师的强化学习课程之外，为保证内容的完整性，我还参考了一些其他的课程，包括周博磊老师的《强化学习纲要》、李科浇老师的《百度强化学习》以及多个强化学习的经典资料作为补充。

使用说明

笔记【4】到笔记【11】为李宏毅《深度强化学习》的部分；
笔记【1】和笔记【2】根据《强化学习纲要》整理而来；
笔记【3】和笔记【12】根据《百度强化学习》整理而来。

一、相关术语

(1）on-policy:要学习的agent跟与环境互动的agent是同一个agent时的策略；

(2) off-policy：要学习的agent跟与环境互动的agent不是同一个agent时的策略。

二、重要性采样

根据我们第四章中的策略梯度方法，可以通过多次采样的方式进行强化学习。但是每学习一次，策略就发生了变化，根据梯度上升的公式：

所以每学习过一个样本，参数θ就会发生变化，变成θ’。因此原来的数据样本就不能再用，

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

开心果小李

关注关注

5
点赞
踩
16

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

近端策略优化算法(PPO)：RL最经典的博弈对抗算法之一「AI核心算法」

九三智能控

12-03

5287

关注：决策智能与机器学习，深耕AI脱水干货作者：Abhishek Suran转载请联系作者提要：PPO强化学习算法解析及其TensorFlow 2.x实现过程（含代码）在本文中，我们将尝...

强化学习PPO算法

热门推荐

shura的技术空间

01-11

9万+

morvan zhou教学视频https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/6-4-DPPO/ Hung-yi Lee课程http://speech.ee.ntu.edu.tw/~tlkagk/courses_MLDS18.html PPO论文https://arxiv.org/abs...

近端策略优化算法PPO

weixin_44924725的博客

05-15

2829

在介绍PPO算法之前，首先需要介绍一下off-policy、on-policy概念。

Proximal Policy Optimization (PPO) 算法理解：从策略梯度开始

qq_43734019的博客

03-14

1万+

零基础理解PPO算法

近端策略优化（PPO）

Faker_boy的博客

07-20

4789

PPO

强化学习 | 蘑菇书阅读笔记 | 第五章 近端策略优化(PPO)

qq_46219381的博客

02-27

281

如果我们能从p中采样，那么可以用MC来估计如果不能直接从p中采样，但是可以从q中采样，则可以用重要性估计：但需要注意，两者不能相距太远。因为虽然它们期望一样，方差却不一样。区别在第一项因此，重要性采样的一个缺点是：必须样本充足，否则可能引起巨大的问题。例如下图中，如果对p采样，f(x)的均值显然是负数。如果对q采样，样本很少的情况下，只会采样到f(x)>0的情况，那么估计的期望就是正数。但如果样本足够多，即使采到左边一两个点，也会因为权重很大而把估计值拉回到负数。

强化学习笔记------第五章----近端优化策略（PPO）（超详细）

w18165269429的博客

04-14

3035

本章数学问题太过复杂，建议去看看李宏毅老师这部分的内容，在此只贴出部分关于PPO的知识总结。基于on-policy的policy gradient有什么可改进之处？或者说其效率较低的原因在于？经典policy gradient的大部分时间花在sample data处，即当我们的agent与环境做了交互后，我们就要进行policy model的更新。但是对于一个回合我们仅能更新policy model一次，更新完后我们就要花时间去重新collect data，然后才能再次进行如上的更新。所以我们的可以自

近端策略优化（proximal policy optimization）算法简述

星海浮生

02-26

8252

本文通过整理李宏毅老师的机器学习教程的内容，简要介绍深度强化学习（deep reinforcement learning）中的近端策略优化算法（proximal policy optimization）。

RL 笔记（3）PPO(Proximal Policy Optimization)近端策略优化

weixin_43146899的博客

03-03

3006

RL 笔记（3） PPO 基本原理 PPO是在基本的Policy Gradient基础上提出的改进型算法 Policy Gradient方法存在核心问题在于数据的bias。因为Advantage估计是不完全准确的，存在bias，那么如果Policy一次更新太远，那么下一次采样将完全偏离，导致Policy更新到完全偏离的位置，从而形成恶性循环。因此，TRPO的核心思想就是让每一次的Policy更新在一个Trust Region里，保证policy的单调提升。 Policy gradient方法是on poli

13、近端策略优化Proximal Policy Optimization (PPO) 算法：从原理到实践

weixin_44584198的博客

01-11

3119

Reward：奖励R，每次（每一步）与环境进行交互都会获得奖励，玩一整局，奖励的和自然是越多越好。Q(s,a)：动作价值函数，其输入为当前状态和要执行的动作，输出为该动作能带来多大的价值，因此，一种贪心的方法是选择能够使Q(s,a)最大动作执行。QπstatEst1at1∑l0∞γlrstlQπstatEst1at1l0∑∞γlrstlQ(s,a)的维度等于动作空间的维度。

超级马里奥兄弟的近距离策略优化（PPO）算法-Python开发

05-25

这是我的python源代码，用于训练特工玩超级马里奥兄弟。通过使用近端策略优化算法论文中介绍的近端策略优化（PPO）算法。 [PYTORCH]用于玩超级马里奥兄弟的近战策略优化（PPO）简介这是我的python源代码，用于训练特工玩超级马里奥兄弟。通过使用近端策略优化算法论文中介绍的近端策略优化（PPO）算法。说到性能，我经过PPO培训的代理可以完成29/32个级别，这比我一开始的预期要好得多。供您参考，PPO是OpenAI提出并使用的算法

强化学习RL学习笔记9-近端策略优化算法（Proximal Policy Optimization, PPO）

liaojq2020的博客

12-11

1833

强化学习笔记专栏传送上一篇：强化学习RL学习笔记7-表格型方法（tabular methods）下一篇：持续创作中… 目录强化学习笔记专栏传送前言From On-policy to Off-policyImportance Sampling 前言 强化学习（Reinforcement Learning, RL），又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。本文是笔者对强化学习的

深度解读：近端策略优化算法（PPO）

Yuleave的博客

01-25

1869

PPO 是一种高效且易于实现的策略优化算法简化实现: 只需对原始策略梯度方法进行少量代码修改。适用性广: 可用于更广泛的架构，包括策略和价值函数共享参数的情况。性能优越: 在连续控制和 Atari 游戏任务中均表现出色。PPO 的成功在于其创新的目标函数设计，通过截断概率比和自适应 KL 惩罚系数，有效解决了传统策略梯度方法中策略更新过大的问题，同时保持了良好的数据效率和性能。

PPO：近端策略优化

weixin_49346755的博客

04-23

1932

基本概念 PPO PPO算法和TRPO算法一样，也是一样常用的策略优化方法。与TRPO不同，PPO算法使用自适应KL惩罚系数β\betaβ来约束KL散度，并且在每次策略更新中动态设置惩罚系数β\betaβ；PPO算法还有另一种实现方式，不将KL散度直接放入似然函数中，而是进行一定程度的裁剪。 PPO训练过程的伪代码如下图所示： PPO with clip 在TRPO中，使用的目标函数为：如果令rt(θ)=πθ(at∣st)πθold(at∣st)r_t(\theta)=\frac {\pi_\thet

【强化学习】近端策略优化算法(PPO)万字详解（附代码）

追风赶月莫停留，平芜尽处是春山

12-26

2万+

PPO（Proximal Policy Optimization）是一种强化学习算法，设计的目的是在复杂任务中既保证性能提升，又让算法更稳定和高效。以下用通俗易懂的方式介绍其核心概念和流程。 PPO 是 OpenAI 在 2017 年提出的一种策略优化算法，专注于简化训练过程，克服传统策略梯度方法（如TRPO）的计算复杂性，同时保证训练效果。问题：在强化学习中，直接优化策略会导致不稳定的训练，模型可能因为过大的参数更新而崩溃。解决方案：PPO通过限制策略更新幅度，使

PPO(Proximal Policy Optimization)算法原理及实现,详解近端策略优化

weixin_41106546的博客

04-04

9万+

接着上面的讲，PG方法一个很大的缺点就是参数更新慢，因为我们每更新一次参数都需要进行重新的采样，这其实是中on-policy的策略，即我们想要训练的agent和与环境进行交互的agent是同一个agent；与之对应的就是off-policy的策略，即想要训练的agent和与环境进行交互的agent不是同一个agent，简单来说，就是拿别人的经验来训练自己。举个下棋的例子，如果你是通过自己下棋来不断提升自己的棋艺，那么就是on-policy的，如果是通过看别人下棋来提升自己，那么就是off-policy的。

【强化学习】07.近端策略优化(PPO) 算法原理

songxia928_928的博客

01-20

1940

PPO（Proximal Policy Optimization）是一种强化学习算法，是策略优化方法的现代改进版本。它结合了策略梯度方法的优势，同时通过限制策略更新幅度，保持训练的稳定性和高效性。PPO 是一种高效且稳定的强化学习算法，它在策略优化中通过截断约束限制策略更新幅度，兼具简洁性和高性能。在与 DQN、传统策略梯度、Actor-Critic 和 TRPO 的对比中，PPO 在稳定性和样本效率方面表现优异，是现代强化学习应用的主流算法之一。TRPO 通过限制每次策略更新的幅度，保证策略更新在。

强化学习笔记：PPO 【近端策略优化（Proximal Policy Optimization）】

qq_40206371的博客

11-06

2891

1 前言我们回顾一下policy network： 强化学习笔记：Policy-based Approach_UQI-LIUWJ的博客-优快云博客它先去跟环境互动，搜集很多的路径τ。根据它搜集到的路径，按照 policy gradient 的式子去更新 policy 的参数。但问题是，一旦我们更新了参数，从θ变成了θ'，那么这个概率就不对了，之前采样出来的数据就变的不能用了。所以 policy gradie...