18、近端策略优化（PPO）算法详解

脸先着地天使

于 2025-09-14 14:39:49 发布

阅读量40

点赞数

CC 4.0 BY-SA版权

分类专栏：深度强化学习实战指南文章标签： PPO 近端策略优化强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/jwt8token/article/details/152340393

深度强化学习实战指南专栏收录该内容

35 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

近端策略优化（PPO）算法详解

在强化学习领域，策略梯度算法是一类重要的方法，但传统的策略梯度算法存在一些问题，例如理论复杂、实现困难、梯度计算成本高以及难以选择合适的参数等。近端策略优化（Proximal Policy Optimization，PPO）算法应运而生，它简单易实现、计算成本低，且无需选择复杂的参数，因此成为了最受欢迎的策略梯度算法之一。

1. PPO算法概述

PPO是一系列使用简单有效启发式方法解决信任区域约束策略优化问题的算法。它有两种变体：一种基于自适应KL惩罚，另一种基于裁剪目标。在介绍这两种变体之前，我们先对代理目标 $J_{CPI}(\theta)$ 进行简化。定义 $r_t(\theta) = \frac{\pi_{\theta}(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)}$，优势函数 $A^{\pi_{\theta_{old}}} t$ 简记为 $A_t$，则代理目标可表示为：
$J {CPI}(\theta) = E_t\left[\frac{\pi_{\theta}(a_t | s_t)}{\pi_{\theta_{old}}(a_t | s_t)}A^{\pi_{\theta_{old}}}_t\right] = E_t[r_t(\theta)A_t]$

2. PPO的两种变体

2.1 基于自适应KL惩罚的PPO（PPO with adaptive KL penalty）

该变体将KL约束 $E_t[KL(\pi_{\theta}(a_t | s_t) || \pi_{\theta_{old}}(a_t | s_t))] \leq

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。