自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

梦想破三的奔三狗

coding is ruling

博客等级

码龄8年

192
原创

2177
点赞

4303
收藏

1719
粉丝

关注

私信

热门文章

分类专栏

最新评论

【速写】PPOTrainer样例与错误思考（少量DAPO）
囚生CY: 这里有个问题，PPOTrainer中 base_model ref_model reward_model value_model 必须是用的相同的 tokenizer（这个问题之前在给trl提过issue，他们说短期内不会做这个更新，我不知道最新版本有没有修这个问题，估计不会修），否则运行肯定会出错，因为整个 PPOTrainer 的流程都只会用你输入base_model的那些 input_ids 进行运算，包括后面的奖励，这意味着要么你得从同一个 base_model 自己微调几个 reward 和 value 出来，或者就得用同一系列的模型，比如qwen同系列模型的tokenizer基本上是没有差别的。
【速写】PPOTrainer样例与错误思考（少量DAPO）
囚生CY: value_model 默认可以用 reward_model，你可以用官方示例中使用的两个模型 base_model_path = "EleutherAI/pythia-1b-deduped" reward_model_path = "EleutherAI/pythia-160m"
【速写】PPOTrainer样例与错误思考（少量DAPO）
定居何处: 请问，现在trl0.26.x，value_model要求显示传参了，应该如何处理?
【论文实现】以SVD的分解形式进行深度神经网络的训练（PyTorch）
拳打美莉间jio踢嘤鸡立: 真的是好文，支持博主。受博主认真的态度的影响（近期真正地完全地被你这篇文章的态度所影响），最近我也开始好好学习了。
【速写】PPOTrainer样例与错误思考（少量DAPO）
囚生CY: trl 0.18.x，你可以看这篇https://blog.youkuaiyun.com/CY19980216，我写了个通用的TRL trainer的pipeline，直接用ScriptArguments，ModelConfig 和 XXXConfig 来导入参数，这篇写的只是可以跑起来的一个示例

速写

关注

文章平均质量分 93

关注数：文章数：21 文章阅读量：212350 文章收藏量：390

作者: 囚生CY

不如养生

展开

专栏收录文章