注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】
清华《GPT多模态大模型与AI Agent智能体》书籍配套视频课程【陈敬雷】
文章目录
GPT多模态大模型与AI Agent智能体系列七十
强化学习三巨头PK:PPO、GRPO、DPO谁是大模型训练的「王炸」?
强化学习三大核心算法深度对比:从经典到前沿的进化之路
在强化学习的算法江湖中,PPO、GRPO、DPO凭借各自的独特设计,成为不同场景下的「利器」。从通用任务到大模型训练,从稳定更新到捕捉不确定性,三者的核心逻辑与适用场景大相径庭。下面逐一解析它们的底层逻辑与实战价值。
一、PPO:强化学习的「万能钥匙」,稳定高效的经典之作
作为OpenAI 2017年提出的策略梯度算法,PPO以「简单、稳定、高效」横扫强化学习领域,至今仍是多数任务的首选基线算法。
核心思想:给策略更新「上保险」
PPO的痛点解决:传统策略梯度算法常因参数更新幅度过大导致训练崩溃,而TRPO(信赖域策略优化)虽稳定但计算复杂。PPO用「裁剪机制」巧妙平衡——允许策略迭代优化,但严格限制每一步的更新幅度,确保新策略不偏离旧策略太远。
关键公式:裁剪目标函数
核心是通过概率比和裁剪操作限制更新:
L C L I P ( θ ) = E t [ min ( r t ( θ ) A t , clip ( r t ( θ ) , 1 − ϵ , 1 + ϵ ) A t ) ] L^{CLIP}(\theta) = \mathbb{E}_t \left[ \min \left( r_t(\theta) A_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon) A_t \right) \right] LCLIP(θ)=Et[min(rt(θ)At,clip(rt(θ),1−ϵ,1+ϵ)At)]
- $ r_t(\theta) = \frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{\text{old}}}(a_t|s_t)} $:新/旧策略的概率比,衡量策略变化幅度;
- $ \text{clip}(r_t, 1-\epsilon, 1+\epsilon) :将比率限制在 :将比率限制在 :将比率限制在 [1-\epsilon, 1+\epsilon] (通常 (通常 (通常 \epsilon=0.2 $),防止突变;
- $ A_t :优势函数,评价动作相对好坏( :优势函数,评价动作相对好坏( :优势函数,评价动作相对好坏( A_t>0 $表示动作优于平均水平)。
特点与适用场景
- 优势:实现简单(无需

最低0.47元/天 解锁文章
1482

被折叠的 条评论
为什么被折叠?



