强化学习在文生图中的应用DDPO:Training Diffusion Models with Reinforcement Learning

本文介绍了如何使用强化学习DDPO(Denoising Diffusion Policy Optimization)优化扩散模型,以提升文生图的质量。研究对比了奖励加权回归(RWR)和DDPO,证明DDPO在多个任务上表现更优,包括图像压缩性、美学质量和图文对齐。此外,DDPO展示出良好的泛化性,能在未见过的prompt上表现优秀。

在这里插入图片描述

InstructGPT 一文中我们介绍了chatGPT的训练过程是先进行大规模数据预训练,然后在到高质量数据上进行微调,最后通过强化学习来进行人类偏好对齐,从结果看来通过RLHF微调后效果提升非常明显。那么同样是生成式模型的文生图模型能否通过RLHF来提高最后的生成质量呢?今天分享这篇论文就是通过强化学习来提升生成图片质量。

1. 概述

扩散模型被广泛的应用在文生图模型中,其训练目标是近似的对数似然目标,然而在很多场景中我们并不关心它的似然目标,更关注的是下由的应用目标,如人类感受到的图片质量等。在本文中研究了针对这些目标直接优化扩散模型的强化学习方法,本文将去噪过程看成一个多步决策问题来实现策略梯度算法,并称这个过程为去噪扩散策略优化(DDPO),它比奖励加权似然方法更有效。DDPO可以使文生图扩散模型生成难以通过prompt表达的目标,如图像压缩性,以及来自人类反馈的目标,如审美质量。此外,本文也证明了DDPO可以使用来自视觉语言模型的反馈改进图文对齐,而无需额外的数据收集或人工注释。

这篇论文的主要贡献包括如下几点:

  • 介绍了DDPO算法
  • 对比文生图模型中各种奖励函数,并证明了DDPO算法的有效性
  • 验证本文提出的微调过程对未见过prompt的泛化性

2. 预备知识

2.1 扩散模型简介

扩散模型可以

评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值