PPO算法来源

Policy Gradient到TRPO再到PPO,我们可以看出强化学习方法的演化逻辑:

  • Policy Gradient重在“可行性”,为强化学习提供了一种端到端优化策略的框架;
  • TRPO则更注重理论上的“稳定性”,为策略优化提供了一个严格的数学基础;
  • PPO则追求“效率”,在工业实践中找到了理论与实用的最佳平衡点。

一、Policy Gradient

在Policy Gradient方法中,核心思想是通过直接优化策略 πθ(a|s) 的参数 θ,最大化累积回报。它的优化目标是:

这里,R(τ) 表示一条轨迹 τ 的累积奖励。通过策略梯度定理,我们可以将目标函数的梯度写为:

公式中的每一部分都很直观:log⁡πθ 提供方向,R(τ) 衡量优劣。然而,这种方法直接依赖采样,噪声较大,收敛速度较慢。

Policy Gradient简单直观,但有两个关键问题:

  1. 更新步长过大:梯度优化可能导致策略分布发生剧烈变化,甚至丧失现有策略的优点。
  2. 样本效率低:由于直接采样,许多样本的利用率很低。

二、TRPO

在尽量小的策略更新范围内,稳步提升策略的表现。引入了信任域(trust region),限制新策略和旧策略之间的“距离”。距离用KL散度来衡量。

TRPO相当于给目标函数增加了一项额外的约束(constrain),而且这个约束并没有体现在目标函数里,在计算过程中这样的约束是很难处理的。PPO的做法就是将这样约束融进了目标函数

优势函数的引入:重要性采样(Importance Sampling)--->比较优势函数引入

1.设置基线Baseline b 

2.设置合适权重

引入一个discount factor(衰减因子) γ , γ ∈ [ 0 , 1 ]

定义R-b为优势函数,表示为

优势函数由网络估计“critic”。

3.推导off-policy(异智能体策略)的梯度公式

调试说明:

三、PPO-Clip

不采用KL散度作为约束,而是采用逻辑上合理的思路设计目标函数

clip函的括号里面有三项,分别是(变量,下限,上限),如果变量小于下限,那么就输出下限,大于上限就输出上限,如果在二者之间,就输出变量的值

函数的取值逻辑:

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值