DPOK: Reinforcement Learning for Fine-tuning Text-to-Image Diffusion Models

文章总结与翻译

一、主要内容

本文聚焦文本到图像扩散模型的微调优化问题,针对现有模型在物体组合、属性绑定(颜色、数量等)等方面的不足,提出了一种基于在线强化学习(RL)的微调方法DPOK(Diffusion Policy Optimization with KL regularization)。

核心思路是将扩散模型的微调任务转化为强化学习问题,以人类反馈训练的奖励模型(ImageReward)为优化目标,结合KL散度正则化(约束微调后模型与预训练模型的差异),通过策略梯度更新模型参数。同时,为了公平对比,本文还提出了带KL正则化的监督微调方法(KL-D、KL-O)。

实验以Stable Diffusion v1.5为基准模型,通过单提示词、多提示词(MS-CoCo、Drawbench)训练与评估,验证了DPOK在图像-文本对齐度(ImageReward评分)和图像质量(美学评分)上均优于传统监督微调:

  1. 解决了监督微调易导致的图像过饱和、非真实感等问题;
  2. 能有效减少预训练模型的固有偏差(如将“Four roses”从威士忌品牌关联修正为花朵图像);
  3. 在 unseen 提示词和复杂提示词任务中表现出更强的泛化能力。

二、创新点

  1. 框架创新:首次将文本到图像扩散模型的微调形式化为在线强化学习问题,通过MDP建模扩散模型的去噪过程,利用策略梯度最大化人类反馈奖励。
  2. 正则化设计:提出KL散度正则化机
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值