文章总结与翻译
一、主要内容
本文聚焦文本到图像扩散模型的微调优化问题,针对现有模型在物体组合、属性绑定(颜色、数量等)等方面的不足,提出了一种基于在线强化学习(RL)的微调方法DPOK(Diffusion Policy Optimization with KL regularization)。
核心思路是将扩散模型的微调任务转化为强化学习问题,以人类反馈训练的奖励模型(ImageReward)为优化目标,结合KL散度正则化(约束微调后模型与预训练模型的差异),通过策略梯度更新模型参数。同时,为了公平对比,本文还提出了带KL正则化的监督微调方法(KL-D、KL-O)。
实验以Stable Diffusion v1.5为基准模型,通过单提示词、多提示词(MS-CoCo、Drawbench)训练与评估,验证了DPOK在图像-文本对齐度(ImageReward评分)和图像质量(美学评分)上均优于传统监督微调:
- 解决了监督微调易导致的图像过饱和、非真实感等问题;
- 能有效减少预训练模型的固有偏差(如将“Four roses”从威士忌品牌关联修正为花朵图像);
- 在 unseen 提示词和复杂提示词任务中表现出更强的泛化能力。
二、创新点
- 框架创新:首次将文本到图像扩散模型的微调形式化为在线强化学习问题,通过MDP建模扩散模型的去噪过程,利用策略梯度最大化人类反馈奖励。
- 正则化设计:提出KL散度正则化机

订阅专栏 解锁全文
1645

被折叠的 条评论
为什么被折叠?



