强化学习微调文生图模型DPOK:Reinforcement Learning for Fine-tuning Text-to-Image Diffusion Models

本文提出DPOK算法,一种结合策略优化和KL正则化的在线强化学习框架,用于微调文生图扩散模型。DPOK解决了SFT导致的图像质量退化问题,通过实验表明在图文对齐和图像质量上优于SFT,并能缓解预训练模型的偏见。

在这里插入图片描述

在之前我们已经了解过了DDPO: Training Diffusion Models with Reinforcement Learning,今天介绍一篇类似的论文DPOK

1. Introduction

最近扩散模型在文生图领域获得了很大的进步,但是当前的模型仍然存在一些问题,如:多目标物体组合能力有限,生成指定颜色数量的物体的能力仍然欠缺。

基于人类反馈进行模型的学习已经被证明能够提升文生图模型的效果,但是通过奖励函数来微调文生图模型仍然存在很多挑战。基于奖励加权损失的SFT能够提升奖励得分,获得更好的图文对齐,但是SFT经常会造成图片质量的退化。

本文主要提出了一个叫DPOK的在线强化学习微调文生图模型框架,这个框架中把策略优化和KL正则化结合在了一起。并且本文证明了优化扩散模型输出图片的期望的奖励相当于在某些限制下在多步扩散模型中执行策略梯度。通过相关实验证明,DPOK在图文对齐和生成图片质量上都比SFT效果好。

总结来说,本文主要有以下贡献:

  • 把给定的prompts下扩散模型生成的图片的期望奖励的优化问题看作是在线的强化学习问题。具体来说,本文提出了DPOK(Diffusion Policy Optimization with KL regularization)算法,即使用关于文生图预训练模型的KL散度作为隐式的奖励来进行稳定的强化学习微调
  • 在扩散模型有监督的微调中使用KL正则化,这可以缓解一些问题,如生成过饱和的图片。同时也能更公平的和RL模型进行对比
  • 研究了文生图模型有监督微调和在线微调的关键区别
  • 通过实验证明通过优化奖励的在线微调是有效的,它能够提高图文对齐同时保持图片的高质感

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值