
transformers
文章平均质量分 75
页页读
这个作者很懒,什么都没留下…
展开
-
【GRPO】GRPO原理原文翻译
GRPO(群组相对策略优化)改进了传统 PPO 强化学习,避免了额外的值函数近似计算,使用多个采样输出的平均奖励作为基线,提高 LLM 训练稳定性。迭代 GRPO 通过重放机制持续优化奖励模型。DeepSeekMath-RL 7B 训练基于 GSM8K 和 MATH 数据,强化链式思维推理,取得 88.2% 和 51.7% 的高准确率,超越多个开源及封闭模型。实验表明,GRPO 可提升 LLM 在域内外任务的泛化能力,有效促进强化学习训练的长期改进。原创 2025-02-13 20:30:48 · 979 阅读 · 0 评论 -
【transformers.Trainer填坑】在自定义compute_metrics时logits和labels数据维度不一致问题
我在使用 transformers.Trainer 训练我的模型时,我自定义了 compute_loss 函数和compute_metrics函数,我的模型是一个简单的二分类模型。这里当 outputs 不是字典时,会把第一个位置的元素offset掉。原创 2025-02-12 17:52:35 · 536 阅读 · 0 评论