
- 论文链接:Training Diffusion Models with Reinforcement Learning
- 项目地址:Training Diffusion Models with Reinforcement Learning
- 官方代码:https://github.com/kvablack/ddpo-pytorch/tree/main
- trl实现:https://huggingface.co/docs/trl/ddpo_trainer
- 🤗关注公众号 funNLPer 分享有用的算法知识🤗
文章目录
在 InstructGPT 一文中我们介绍了chatGPT的训练过程是先进行大规模数据预训练,然后在到高质量数据上进行微调,最后通过强化学习来进行人类偏好对齐,从结果看来通过RLHF微调后效果提升非常明显。那么同样是生成式模型的文生图模型能否通过RLHF来提高最后的生成质量呢?今天分享这篇论文就是通过强化学习来提升生成图片质量。
1. 概述
扩散模型被广泛的应用在文生图模型中,其训练目标是近似的对数似然目标,然而在很多场景中我们并不关心它的似然目标,更关注的是下由的应用目标,如人类感受到的图片质量等。在本文中研究了针对这些目标直接优化扩散模型的强化学习方法,本文将去噪过程看成一个多步决策问题来实现策略梯度算法,并称这个过程为去噪扩散策略优化(DDPO),它比奖励加权似然方法更有效。DDPO可以使文生图扩散模型生成难以通过prompt表达的目标,如图像压缩性,以及来自人类反馈的目标,如审美质量。此外,本文也证明了DDPO可以使用来自视觉语言模型的反馈改进图文对齐,而无需额外的数据收集或人工注释。
这篇论文的主要贡献包括如下几点:
- 介绍了DDPO算法
- 对比文生图模型中各种奖励函数,并证明了DDPO算法的有效性
- 验证本文提出的微调过程对未见过prompt的泛化性
2. 预备知识
2.1 扩散模型简介
扩散模型可以
本文介绍了如何使用强化学习DDPO(Denoising Diffusion Policy Optimization)优化扩散模型,以提升文生图的质量。研究对比了奖励加权回归(RWR)和DDPO,证明DDPO在多个任务上表现更优,包括图像压缩性、美学质量和图文对齐。此外,DDPO展示出良好的泛化性,能在未见过的prompt上表现优秀。
订阅专栏 解锁全文
1611





