强化学习系列:包含PPO DPO GRPO GSPO
文章平均质量分 95
强化学习极简入门:通俗理解MDP、DP MC TD和Q学习、策略梯度、PPO
v_JULY_v
七月在线创始人,结构之法算法之道blog之博主
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
FPO——流匹配策略梯度:避开复杂的对数似然计算,通过「最大化基于CFM损失计算优势加权比率」做策略优化,兼容PPO-CLIP
本文介绍流策略优化(FPO)算法,这是一种基于条件流匹配(CFM)的策略梯度方法。FPO通过将流匹配损失作为对数似然的替代项,避免了传统流模型复杂的似然计算,直接优化优势加权比值。相比将去噪过程重构为MDP的方法,FPO将采样视为黑盒,保持了标准扩散模型的结构。该算法兼容现有强化学习技术,能处理比高斯策略更复杂的动作分布。理论分析表明,FPO通过优化流匹配损失来提升证据下界(ELBO),使策略更倾向于高回报动作。实验显示FPO在样本效率上优于高斯PPO,为扩散模型在强化学习中的应用提供了新思路。原创 2025-11-25 17:59:55 · 2619 阅读 · 0 评论 -
一文通透GSPO——Qwen3所用的“群体序列策略优化”:摒弃token级别的off-policy校正,而在序列级别利用重要性权重进行优化
文章摘要: DeepSeek的GRPO方法与Qwen的创新对比。Qwen团队提出GSPO算法,通过序列级概率定义重要性比率,解决了GRPO训练不稳定问题。GSPO在训练效率、性能上优于GRPO,尤其稳定了MoE模型训练,为Qwen3带来显著提升。研究表明,GSPO有望成为大模型强化学习训练的新基准。(149字)原创 2025-08-25 12:42:10 · 3865 阅读 · 2 评论 -
一文通透GRPO——通俗理解“群体相对策略优化”:去掉价值估计,不用像PPO中复杂的GAE计算(含代码实现)
本文的标题 最开始是《七月论文审稿GPT第3.2版和第3.5版:通过paper-review数据集分别微调Mistral、gemma》后于25年1.31日,直接改成了新的内容,标题也就变成了本文的《一文速览DeepSeekMath及GRPO:通俗理解群体相对策略优化GRPO及其代码实现(含DeepSeek-Coder的简介)》至于为何改成如今这样,在这篇文章《一文速览DeepSeekMoE:从Mixtral 8x7B到DeepSeekMoE(含DeepSeek LLM的简介)》的开头有说原因。原创 2024-03-12 17:27:33 · 24839 阅读 · 15 评论 -
RLHF的替代之DPO原理解析:从RLHF、Claude的RAILF到DPO、Zephyr
今年5月份,斯坦福的一些研究者提出了RLHF的替代算法:直接偏好优化(Direct Preference Optimization,简称DPO),其对应论文为《那其与ChatGPT所用的RLHF有何本质区别呢,简言之RLHF将奖励模型拟合到人类偏好数据集上,然后使用RL方法比如PPO算法优化语言模型的策略,以输出可以获得高奖励的responses(同时不会偏离原始SFT模型太远)原创 2023-11-06 12:56:05 · 26300 阅读 · 4 评论 -
强化学习极简入门:通俗理解MDP、DP MC TD和Q学习、策略梯度、PPO
强化学习里面的概念、公式,相比ML/DL特别多,初学者刚学RL时,很容易被接连不断的概念、公式给绕晕,而且经常忘记概念与公式符号表达的一一对应(包括我自己在1.10日之前对好多满是概念/公式的RL书完全看不下去,如今都看得懂了,故如果读文本之前,你正在被RL各种公式困扰,相信看完这篇RL极简入门后就完全不一样了)。原创 2023-02-10 11:12:38 · 127535 阅读 · 192 评论
分享