- 论文链接:Training Diffusion Models with Reinforcement Learning
- 项目地址:Training Diffusion Models with Reinforcement Learning
- 官方代码:https://github.com/kvablack/ddpo-pytorch/tree/main
- trl实现:https://huggingface.co/docs/trl/ddpo_trainer
- 🤗关注公众号 funNLPer 分享有用的算法知识🤗
文章目录
在 InstructGPT 一文中我们介绍了chatGPT的训练过程是先进行大规模数据预训练,然后在到高质量数据上进行微调,最