
强化学习
文章平均质量分 93
页页读
这个作者很懒,什么都没留下…
展开
-
【强化学习基础知识】KL 散度的蒙特卡洛近似(from John Schulman, the cofounder of OPENAI)
本文探讨了 KL 散度的蒙特卡洛估计,提出无偏且低方差的估计方法。通过 f-散度和 Bregman 散度的思想,引入 $k_3 = (r - 1) - \log r$ 作为改进估计量。实验表明,相较于传统估计量 $k_1$ 和 $k_2$,$k_3$ 具有更低的方差且无偏,是更优的 KL 估计方法。原创 2025-02-14 11:25:42 · 847 阅读 · 0 评论 -
【GRPO】GRPO原理原文翻译
GRPO(群组相对策略优化)改进了传统 PPO 强化学习,避免了额外的值函数近似计算,使用多个采样输出的平均奖励作为基线,提高 LLM 训练稳定性。迭代 GRPO 通过重放机制持续优化奖励模型。DeepSeekMath-RL 7B 训练基于 GSM8K 和 MATH 数据,强化链式思维推理,取得 88.2% 和 51.7% 的高准确率,超越多个开源及封闭模型。实验表明,GRPO 可提升 LLM 在域内外任务的泛化能力,有效促进强化学习训练的长期改进。原创 2025-02-13 20:30:48 · 979 阅读 · 0 评论 -
(DPO) Bradley-Terry模型概念
在Bradley-Terry模型中,假设有两个对象(例如,运动队A和B)进行比较,模型的目标是估计每个对象的“能力”或“实力”。我们用这些估计值来计算对象A在与对象B的比较中胜出的概率。假设每个对象iii有一个能力值pi0p_i > 0pi0。那么对象iii胜过对象jjjPibeatsjpipipjPibeatsjpipjpi这意味着,两个对象的相对能力值决定了它们的胜出概率。如果pipjp_i > p_jp。原创 2024-08-28 15:46:38 · 3351 阅读 · 0 评论 -
【RLHF】RLHF 中的似然函数是怎样定义的?
在强化学习中的人类反馈(RLHF, Reinforcement Learning with Human Feedback)中,似然函数的定义涉及到如何通过人类反馈来改进和优化策略。RLHF通常结合了强化学习和人类反馈模型来训练智能体。这里主要关注如何将人类反馈纳入到强化学习的框架中。在RLHF中,似然函数的定义和优化涉及到如何通过人类反馈训练奖励模型,从而在强化学习过程中改进智能体的策略。似然函数的核心是通过最大化人类反馈数据下的模型输出概率来优化奖励模型的参数。原创 2024-08-14 14:22:36 · 606 阅读 · 1 评论 -
【基础知识】DPO(Direct Preference Optimization)的原理以及公式是怎样的?
DPO方法的关键在于直接利用人类偏好数据来优化语言模型,从而避免了RLHF流程中奖励模型拟合和RL优化的复杂性和不稳定性。这种方法简化了偏好学习的过程,降低了实现的复杂性,并有可能提高模型根据人类偏好生成输出的效率和准确性。原创 2024-03-11 20:03:35 · 22392 阅读 · 1 评论