本文是LLM系列文章,针对《SNOOPI: Supercharged One-step Diffusion Distillation with Proper Guidance》的翻译。
摘要
最近的方法在将多步文本到图像扩散模型提取为一步模型方面取得了有希望的结果。最先进的高效蒸馏技术,即SwiftBrushv2(SBv2),甚至在资源有限的情况下超越了教师模式的表现。然而,我们的研究表明,由于在变分分数蒸馏(VSD)损失内使用固定的指导尺度,在处理不同的扩散模型主干时,它是不稳定的。现有一步扩散模型的另一个弱点是缺少对负提示引导的支持,这在实际图像生成中至关重要。本文提出了SNOOPI,这是一种新的框架,旨在通过在训练和推理过程中增强一步扩散模型的指导来解决这些局限性。首先,我们通过适当的引导-SwiftBrush(PG-SB)有效地提高了训练的稳定性,该方法采用了随机尺度无分类器的引导方法。通过改变两种教师模型的指导规模,我们扩大了它们的输出分布,从而产生了更稳健的VSD损失,使SB能够在保持竞争力的同时,在不同的骨干网中有效地执行任务。其次,我们提出了一种称为负偏离注意力(NASA)的无训练方法,该方法通过交叉注意力将负提示整合到一步扩散模型中,以抑制生成图像中的不期望元素。我们的实验结果表明,我们提出的方法显著改善了各种指标的基线模型。值得注意的是,我们的HPSv2得分为31.08,为一步扩散模型设定了新的最先进的基准。