一致性模型
摘要
扩散模型在图像、音频和视频生成方面取得了重大突破,但它们依赖于迭代生成过程,这会导致采样速度缓慢,并限制其实时应用的潜力。为了克服这一限制,我们提出了一致性模型,这是一种新的生成模型家族,可以在没有对抗性训练的情况下实现高样本质量。它们支持通过设计快速一步生成,同时仍然允许进行几步(少量)采样,以换取计算和样本质量。它们还支持零样本数据编辑,如图像修复、图像上色和超分辨率,而无需对这些任务进行明确训练。一致性模型可以在预训练好的扩散模型上进行蒸馏的训练,也可以作为独立的生成模型进行训练(从0开始)。通过广泛的实验,我们证明一致性模型(上面两种方法)在一步和几步生成中优于现有的扩散模型蒸馏技术。例如,我们在CIFAR-10上实现了新的最先进的FID 3.55,在ImageNet 64上实现了6.20,用于一步生成。当被训练为独立的生成模型时,一致性模型在标准基准上也优于单步非对抗性生成模型,如CIFAR-10、ImageNet 64和LSUN 256。
主打一步生成!!!实现了单步的采样,解决了多步采样的问题!!后面人们发现,通过蒸馏的方式可以以很少的步数进行采样!!!
1.简介
扩散模型,也称为基于分数的生成模型,在多个领域取得了前所未有的成功,包括图像生成,音频合成和视频生成。与生成对抗性网络,这些模型不依赖于对抗性训练,因此不太容易出现不稳定训练和模式崩溃等问题。此外,扩散模型并不像自回归模型、变分自动编码器或归一化流量那样对模型架构施加严格的约束。
扩散模型成功的关键是其迭代采样过程,该过程从随机噪声向量中逐步去除噪声。这种迭代精化过程反复调用扩散模型,允许计算与样本质量的权衡:通过使用额外的计算进行更多的迭代,小型模型可以展开到更大的计算图中,并生成更高质量的样本。迭代生成对于扩散模型的零拍摄数据编辑能力也至关重要,使其能够解决具有挑战性的逆问题,包括图像修复、着色、笔划引导的图像编辑,计算层析成像和磁共振成像。然而,与单步生成模型(如GAN、VAE和归一化流)相比,扩散模型的迭代生成过程通常需要10–2000倍的计算量,这导致推理速度慢,限制了它们的实时应用。
我们的目标是创建生成模型,在不牺牲迭代优化的重要优势的情况下,促进高效的单步生成。这些优势包括在必要时权衡计算以获得样本质量的能力,以及执行零炮数据编辑任务的能力。如图1所示,我们在连续时间扩散模型中的概率流(PF)常微分方程(ODE:没有随机性,仅是一条线,采样的时候是固定的)的基础上构建,其轨迹将数据分布平稳过渡到可控制的噪声分布。我们建议学习一个模型,该模型将任何时间步长的任何点映射到轨迹的起点。我们模型的一个显著特性是自一致性:同一轨迹上的点映射到同一初始点。因此,我们将此类模型称为一致性模型。一致性模型允许我们生成数据样本(ODE轨迹的初始点,例如,图1中的x0),通过仅使用一次网络评估转换随机噪声向量(ODE轨道的端点,例如,图图1中xT)。重要的是,通过在多个时间步长链接一致性模型的输出,我们可以提高样本质量并以更多计算为代价执行零样本数据编辑,这与迭代求精对扩散模型的支持类似。
图1:给定一个将数据转换为噪声的概率流(PF),我们学习将ODE轨迹上的任何点(如xt、xt’和xT)映射到其原点(如x0),以进行生成建模。这些映射的模型被称为一致性模型,因为它们的输出被训练为对相同轨迹上的点保持一致。
为了训练一致性模型,我们提供了两种基于增强自一致性属性的方法。第一种方法依赖于使用数值ODE解算器(公式2)和预先训练的扩散模型来生成PF ODE轨迹上的成对相邻点(如何获得ODE上面的点,使用分数匹配通过xt可以xt-1)。通过最小化这些对的模型输出之间的差异,我们可以有效地将扩散模型提取为一致性模型,这允许通过一个网络评估生成高质量的样本。相比之下,我们的第二种方法完全消除了对预先训练的扩散模型的需要,使我们能够孤立地训练一致性模型。这种方法将一致性模型定位为一个独立的生成模型家族。至关重要的是,这两种方法都不需要对抗性训练,而且这两种训练方法都允许灵活的神经网络架构用于一致性模型。
我们证明了一致性模型在几种具有挑战性的图像基准上的有效性,包括CIFAR-10、ImageNet 64 576 64和LSUN 256 576 256。根据经验,我们观察到,作为一种蒸馏方法,一致性模型在各种数据集和采样步骤数量上都优于渐进蒸馏。在CIFAR-10上,一致性模型达到了最先进的一步和两步生成的3.55和2.93的FID。在ImageNet 64上,它分别通过一次和两次净功评估实现了6.20和4.70的破纪录FID。当作为独立的生成模型进行训练时,一致性模型在单步生成中实现了与渐进蒸馏相当的性能,尽管无法访问预先训练的扩散模型。它们能够在多个数据集上胜过许多Gan和所有其他非对抗性的单步生成模型。我们还表明,一致性模型可以用于执行零样本数据编辑任务,包括图像去噪、插值、修复、彩色化、超分辨率和笔划引导图像编辑。
一致性模型:扩散模型的新的蒸馏式的方式,或者一种新的生成式方法!!
2.扩散模型
3.一致性模型
我们提出了一致性模型,这是一种新型的生成模型,在设计的核心支持单步生成,同时仍然允许迭代生成零炮数据编辑以及样本质量和计算之间的权衡。一致性模型可以在蒸馏模式或分离(隔离)模式中进行训练。在前一种情况下,一致性模型将预处理扩散模型的知识蒸馏到一个单步采样器中,显著改进了样品质量的其他提取方法,同时允许使用零样本图像编辑应用程序。在后一种情况下,一致性模型是孤立训练的,不依赖于预先训练的扩散模型。这使它们成为一类独立的新生成模型。
下面我们介绍一致性模型的定义、参数化和采样,并简要讨论它们在零样本数据编辑中的应用。
定义
图2:一致性模型被训练成将PF ODE的任何轨迹上的点映射到轨迹的原点。
参数化
取样
零样本数据编辑
一致性模型使各种数据编辑和操作应用程序能够在零快照中进行;他们不需要明确的训练来执行这些任务。例如,一致性模型定义了从高斯噪声向量到数据样本的一对一映射ping。与GAN、VAE和归一化流等潜在变量模型类似,一致性模型可以通过遍历潜在空间来轻松地在样本之间进行插值(图11)。由于一致性模型被训练来从任何有噪声的输入中恢复
,其中
,它们可以对各种噪声水平执行去噪(图12)。此外,算法1中的多步生成过程有助于通过使用类似于扩散模型的迭代替换过程来解决零炮中的某些逆问题。这使许多应用程序能够在图像编辑环境中进行,包括修补(图10)、彩色化(图8)、超分辨率(图6b)和笔划引导图像编辑(图13),如SDEdit。在第6.3节中,我们实证地证明了一致性模型在许多零样本图像编辑任务中的强大功能。
4.通过蒸馏训练一致性模型
下面我们提供了基于渐近分析的一致性蒸馏的理论依据。
5.独立地训练一致性模型
可以在不依赖于任何预先训练的扩散模型的情况下训练一致性模型。这与扩散蒸馏技术不同,使一致性模型成为一个新的独立生成模型家族。
6.实验
我们使用一致性蒸馏和一致性训练来学习真实图像数据集上的一致性模型,包括CIFAR-10、ImageNet 64 576 64、LSUN Bedroom 256 576 256和LSUN Cat 256 576。根据Fr´echet Inception Distance(FID,越低越好)、Inception Score(is,Salimans et al.(2016),越高越好)、Precision(Prec.,Kynk¨a¨annemi et al.(2019),越高越好)和Recall(Rec.,Kynk–a¨annimi et al。附录C中提供了额外的实验细节。
我们使用一致性蒸馏和一致性训练来学习真实图像数据集上的一致性模型,包括CIFAR-10、ImageNet 64ˆ64、LSUN卧室256ˆ256和LSUN Cat 256ˆ256。结果比较根据Fr‘echet初始距离(费低越好),《盗梦空间》得分,高越好),精度(越高更好)和回忆(金越高越好)。其他实验细节见附录C。
6.1训练一致性模型
我们在CIFAR-10上进行了一系列实验,以了解各种超参数对通过一致性蒸馏(CD)和一致性训练(CT)训练的一致性模型性能的影响。我们首先关注度量函数dp¨,¨q、ODE求解器和CD中离散化步骤数N的影响,然后研究调度函数Np¨q和µp¨q在CT中的影响。
为了建立我们的CD实验,我们考虑平方的‘2距离dpx,yq“}x´y}2 2,`1距离dpx,yq”}x `y}1,以及学习感知图像补丁相似性(LPIPS,Zhang et al.(2018))作为度量函数。对于ODE解算器,我们比较了欧拉正向方法和Heun二阶方法,如Karras et al.(2022)所述对于离散化步骤的数量N,我们比较N P t9、12、18、36、50、60、80、120u。在我们的实验中,CD训练的所有一致性模型都用相应的预先训练的扩散模型初始化,而CT训练的模型是随机初始化的。
如图6所示,如图3a所示,CD的最佳度量是LPIPS,它在所有训练迭代中都以很大的优势优于“1”和“2”。这是意料之中的,因为一致性模型的输出是CIFAR-10上的图像,而LPIPS是专门为测量自然图像之间的相似性而设计的。接下来,我们研究哪一个ODE解算器和哪一个离散化步骤N对CD最有效。如图3b和3c所示,Heun ODE解算器和N“18是最佳选择。两者都符合Karras等人的建议。(2022)尽管我们正在训练一致性模型,而不是扩散模型。此外,图3b显示,在相同的N下,Heun的二阶解算器均匀地优于Euler的一阶解算。这与定理1相证实,定理1指出,由高阶ODE解算器训练的最优一致性模型在相同的N下具有较小的估计误差。图3c的结果还表明,一旦N足够大,CD的性能就对N不敏感。鉴于这些见解,除非另有说明,否则我们在下文中对CD使用LPIPS和Heun ODE解器。对于CD中的N,我们遵循Karras等人(2022)关于CIFAR-10和ImageNet 64的建议。我们在其他数据集上分别调整N(详细信息见附录C)。
由于CD和CT之间的紧密联系,我们在本文的CT实验中采用了LPIPS。与CD不同,在CT中不需要使用Heun的二阶解算器,因为损失函数不依赖于任何特定的数值ODE解算器。如图6所示,如图3d所示,CT的收敛对N高度敏感。较小的N导致更快的收敛但较差的样本,而较大的N导致较慢的收敛但在收敛时更好的样本。这与我们在第5节中的分析相匹配,并促使我们为CT选择逐渐增长的N和µ,以平衡收敛速度和样本质量之间的权衡。如图3d所示,N和µ的自适应调度显著提高了CT的收敛速度和样本质量。在我们的实验中,我们针对不同分辨率的图像分别调整了调度Np¨q和µp¨q,更多细节见附录C。
6.2.Few-Step图像生成
蒸馏
在目前的文献中,与我们的一致性蒸馏(CD)最直接可比的方法是渐进蒸馏(PD,Salimans&Ho(2022));到目前为止,这两种方法都是唯一不在蒸馏前构建合成数据的蒸馏方法。与此形成鲜明对比的是,其他蒸馏技术,如知识蒸馏(Luhman&Luhman,2021)和DFNO(Zheng等人,2022年),必须通过使用昂贵的数值常微分方程求解器从扩散模型生成大量样本来制备大型合成数据集。我们在CIFAR-10、ImageNet 64和LSUN 256上对PD和CD进行了全面比较,所有结果如图4所示。所有方法都是从我们内部预先训练的EDM(Karras et al.,2022)模型中提取的。我们注意到,在所有采样迭代中,与Salimans&Ho(2022)的原始论文中的平方“2”距离相比,使用LPIPS度量均匀地提高了PD。随着我们采取更多的采样步骤,PD和CD都有所改善。我们发现,CD在所有数据集、采样步骤和所考虑的度量函数中都一致优于PD,除了Bedroom 256的单步生成,其中“2”的CD略低于“2”。如表1所示,CD甚至优于需要构建合成数据集的蒸馏方法,如知识蒸馏(Luh-man&Luhman,2021)和DFNO(Zheng等人,2022年)。
直接发电
在表1和表2中,我们将一致性训练(CT)的样本质量与其他使用一步和两步生成的生成模型进行了比较。我们还包括PD和CD结果以供参考。两个表都重新报告了从`2度量函数获得的PD结果,因为这是Salimans&Ho(2022)的原始论文中使用的默认设置。为了进行公平的比较,我们训练PD和CD来提取相同的EDM模型。在表1和表2中,我们观察到CT在CIFAR-10上显著优于所有单步非对抗性生成模型,即VAE和归一化流。此外,在不依赖蒸馏的情况下,对于单步生成,CT可以获得与PD相当的质量。在图5中,我们提供了EDM样本(顶部)、单步CT样本(中间)和两步CT样本(底部)。在附录E中,我们在图14至21中显示了CD和CT的额外样本。重要的是,从相同的初始噪声向量获得的所有样本都具有显著的结构相似性,即使CT和EDM模型是相互独立训练的。这表明CT不太可能遭受模式崩溃,因为EDM不会。
6.3.零快照图像编辑
与扩散模型类似,一致性模型允许通过修改算法1中的多步采样过程进行零拍摄图像编辑。我们通过使用一致性蒸馏在LSUN卧室数据集上训练的一致性模型来证明这种能力。在图6中,6a,我们展示了这样一个一致性模型可以在测试时对灰度卧室图像进行着色,尽管它从未在着色任务中进行过训练。在图6b中,我们展示了相同的一致性模型可以从低分辨率输入生成高分辨率图像。在图6c中,我们还证明了它可以根据人类创建的笔划输入生成图像,如扩散模型的SDEdit(Meng等人,2021)。同样,这种编辑功能是零样本,因为模型没有经过笔划输入训练。在附录D中,我们还演示了一致性模型在修复(图10)、插值(图11)和去噪(图12)方面的零样本能力,并提供了更多关于彩色化(图8)、超分辨率(图9)和笔划引导图像生成(图13)的示例。
7.结论
我们引入了一致性模型,这是一种专门为支持一步和少步生成而设计的生成模型。我们已经实证证明,我们的一致性蒸馏方法在多个图像基准和各种采样迭代上的扩散模型的现有蒸馏技术中相形见绌。此外,作为一个独立的生成模型,一致性模型优于其他允许单步生成的可用模型,排除了GANs。与扩散模型类似,它们还允许使用零样本图像编辑应用程序,如修复、着色、超分辨率、去噪、插值和笔划引导图像生成。此外,一致性模型与其他领域使用的技术有着惊人的相似之处,包括深度Q学习(Mnih等人,2015)和基于动量的对比学习(Grill等人,2020;He等人,2020)。这为这些不同领域的思想和方法的交叉授粉提供了令人兴奋的前景。