18、近端策略优化（PPO）算法详解

脑补型产品

于 2025-10-23 13:55:20 发布

阅读量12

点赞数

CC 4.0 BY-SA版权

分类专栏：深度强化学习入门指南文章标签： PPO 近端策略优化强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/mongodb5scout/article/details/154598561

深度强化学习入门指南专栏收录该内容

35 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

近端策略优化（PPO）算法详解

1. 引言

在强化学习领域，策略梯度算法是一类重要的方法，但传统的策略梯度算法存在一些问题，如理论复杂、实现困难、梯度计算成本高以及难以选择合适的参数等。近端策略优化（Proximal Policy Optimization，PPO）算法应运而生，它易于实现、计算成本低，且无需选择复杂的参数，因此成为了最受欢迎的策略梯度算法之一。

2. PPO 算法基础

2.1 代理目标函数简化

为了更好地理解 PPO 算法，我们先对代理目标函数 (J_{CPI}(\theta)) 进行简化。定义 (r_t(\theta) = \frac{\pi_{\theta}(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)})，优势函数 (A^{\pi_{\theta_{old}}} t) 简记为 (A_t)，则代理目标函数可表示为：
[J {CPI}(\theta) = E_t\left[\frac{\pi_{\theta}(a_t | s_t)}{\pi_{\theta_{old}}(a_t | s_t)}A^{\pi_{\theta_{old}}}_t\right] = E_t[r_t(\theta)A_t]]

2.2 PPO 算法变体

PPO 算法有两种变体：基于自适应 KL 惩罚的变体和基于裁剪目标的变体。

2.2.1 基于自适应 KL 惩罚的 PPO

该变体将 KL 约束 (E_t[KL(\pi_{\theta}(a_t | s_t) || \pi_{\theta_{old}}(a_t |

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。