论文链接: https://arxiv.org/pdf/2408.08332
git地址:https://betterze.github.io/TurboEdit/
亮点直击
提出一个反演网络,该网络通过预测噪声来重建输入图像,并被训练为在前一步重建的条件下迭代地校正重建图像。
对扩散蒸馏过程的一种新兴特性进行分析。
方法在反演过程中只需要 8 次功能评估(一次性成本),每次编辑只需 4 次功能评估,而基于多步扩散模型的方法在反演中需要 50 次功能评估,每次编辑需要 30-50 次功能评估。本文方法速度显著提升(每次编辑小于 0.5 秒,而不是大于 3 秒),且在描述性和指令性文本提示设置中,在文本图像对齐和背景保留方面表现出比基于多步扩散模型的方法更好的效果。
本文解决了在少步扩散模型中精确图像反演和分解图像编辑的挑战。本文引入了一种基于编码器的迭代反演技术。反演网络以输入图像和前一步的重建图像为条件,允许对下一步的重建进行修正,使其更接近输入图像。本文展示了在少步扩散模型中,通过对(自动生成的)详细文本提示进行条件化,可以轻松实现分解控制。为了操控反演后的图像,本文冻结噪声图,并修改文本提示中的一个属性(可以手动修改,也可以通过大型语言模型驱动的指令编辑),从而生成一个与输入图像相似但仅改变了一个属性的新图像。该方法还可以进一步控制编辑强度并接受指导性文本提示。本文的方法能够实时实现逼真的文本引导图像编辑,反演只需进行8次功能评估(一次性成本),每次编辑仅需4次功能评估。本文的方法不仅快速,而且显著优于现有的多步扩散编辑技术。
方法
预备知识
正向扩散过程通过向干净图像 添加高斯噪声 ,逐渐将其转变为白色高斯噪声 。
其中, 控制噪声的时间表, 是高斯噪声。网络 被训练用于在给定 、文本提示 和时间步 的情况下预测 ,其目标是:
本文可以轻松地将公式从噪声预测重写为样本预测。
通常需要20到50步才能从采样的高斯噪声生成干净的图像。随着蒸馏方法的发展,少步扩散模型可以在1到4步内获得高质量的图像。
单步图像反演
基于扩散的方法在真实图像编辑中已显示出实现高质量分解编辑的有希望结果。然而,这些依赖于多步扩散模型的方法由于其计算需求而受到限制,每次编辑至少需要4-5秒,使其不适合交互式应用。此外,由于设计上的根本差异,这些方法无法直接应用于少步扩散模型。例如,许多基于扩散的编辑方法依赖于DDIM反演或DDPM反演将真实图像投射到扩散噪声空间。然而,DDIM反演对小步长和大量反演步骤的要求本质上与少步扩散模型的设计原则相悖。而DDPM反演则容易对输入图像进行过拟合,并在编辑后的图像中产生大量伪影。如下图8所示,当应用于少步反演步骤时,DDIM和DDPM反演都产生次优的编辑结果。
一些研究利用对抗性损失来蒸馏多步扩散模型,使少步扩散模型的优化目