High-Resolution Image Synthesis with Latent Diffusion Models
Abstract
通过将图像形成过程分解为去噪自编码器的顺序应用,扩散模型(DMs)在图像数据和其他数据上实现了最先进的合成结果。此外,它们的组件允许一个指导机制来控制图像生成过程,而无需再训练。然而,由于这些模型通常直接在像素空间中操作,因此优化功能强大的dm通常会消耗数百个GPU天,并且由于顺序评估而导致推理成本高昂。为了使DM训练在有限的计算资源上同时保持其质量和灵活性,我们将它们应用于强大的预训练自编码器的潜在空间。与之前的工作相比,在这种表示上训练扩散模型可以首次在复杂性降低和细节保存之间达到近乎最佳的点,极大地提高了视觉保真度。通过在模型架构中引入交叉注意层,我们将扩散模型转变为强大而灵活的生成器,用于一般条件输入(如文本或边界框),并以卷积方式实现高分辨率合成。我们的潜在扩散模型(LDM)在图像绘制和类别条件图像合成方面取得了新的最先进的分数,并在各种任务上表现出极具竞争力的性能,包括文本到图像合成、无条件图像生成和超分辨率,同时与基于像素的DMs相比,显著降低了计算需求。
1 引言
图像合成是近年来计算机视觉领域中发展最为引人注目的领域之一,也是计算量需求最大的领域之一。尤其是复杂自然场景的高分辨率合成,目前主要是基于可能性的模型,在自回归(AR)Transformer中可能包含数十亿个参数。相比之下,GAN的有希望的结果已被揭示主要局限于具有相对有限可变性的数据,因为它们的对抗性学习过程不容易扩展到建模复杂的多模态分布。最近,扩散模型建立在去噪自编码器的层次结构上,在图像合成和其他方面取得了令人印象深刻的结果,并定义了类条件图像合成和超分辨率的最新技术。此外,与其他类型的生成模型相比,即使是无条件的DMs也可以很容易地应用于诸如图像修复和着色或基于笔画的合成等任务。作为基于似然的模型,它们不像GAN那样表现出模式崩溃和训练不稳定性,并且通过大量利用参数共享,它们可以模拟自然图像的高度复杂分布,而不像AR模型那样涉及数十亿个参数。
使高分辨率图像合成大众化
扩散模型属于基于似然的模型,其模式覆盖行为使得它们倾向于花费过多的内存(从而计算资源)来建模数据中难以察觉的细节。虽然重加权变分目标旨在通过对初始去噪步骤进行欠采样来解决这个问题,但扩散模型仍然需要计算量,因为训练和评估这样的模型需要在RGB图像的高维空间中重复函数评估(和梯度计算)。例如,训练最强大的扩散模型通常需要数百个GPU天,并且在输入空间的噪声版本上重复评估也会导致推理昂贵,因此在单个A100 GPU上产生50k个样本大约需要5天。这对研究界和一般用户有两个后果:首先,训练这样一个模型需要大量的计算资源,只有一小部分领域可以使用,并且留下了巨大的碳足迹。其次,评估一个已经训练好的模型在时间和内存上也很昂贵,因为相同的模型架构必须连续运行大量的步骤。
为了提高这种强大的模型类的可访问性,同时减少其显著的资源消耗,需要一种方法来降低训练和采样的计算复杂度。因此,在不损害其性能的情况下减少dm的计算需求是增强其可访问性的关键。
潜在空间的研究

图2 说明感知和语义压缩:数字图像的大多数位对应于难以察觉的细节。虽然dm允许通过最小化负责的损失项来抑制这种语义上无意义的信息,但梯度(在训练期间)和神经网络骨干(训练和推理)仍然需要在所有像素上进行评估,从而导致多余的计算和不必要的昂贵优化和推理。
我们提出潜在扩散模型(LDMs)作为一个有效的生成模型和一个单独的轻度压缩阶段,只消除不可察觉的细节。
我们的方法从分析像素空间中已经训练好的扩散模型开始:图2显示了训练模型的速率失真权衡。与任何基于似然的模型一样,学习可以大致分为两个阶段:
- 首先是感知压缩阶段,该阶段去除高频细节,但仍然学习很少的语义变化。
- 在第二阶段,实际生成模型学习数据的语义和概念组成(语义压缩)。
因此,我们的目标是首先找到一个感知上等效的,但计算上更合适的空间,在这个空间中,我们将训练用于高分辨率图像合成的扩散模型。
按照惯例,我们将训练分为两个不同的阶段:首先,我们训练一个自动编码器,它提供一个低维(因此有效)的表示空间,在感知上等同于数据空间。重要的是,与之前的工作相比,我们不需要依赖过度的空间压缩,因为我们在学习的潜在空间中训练dm,这在空间维度方面表现出更好的缩放特性。降低的复杂度也提供了有效的图像生成从潜在空间与一个单一的网络通道。我们将得到的模型称为潜在扩散模型(Latent Diffusion Models, ldm)。
这种方法的一个显著优点是,我们只需要训练通用自编码阶段一次,因此可以将其重用于多个DM训练或探索可能完全不同的任务。这使得能够有效地探索各种图像到图像和文本到图像任务的大量扩散模型。对于后者,我们设计了一种架构,将Transformer连接到DM的UNet主干,并启用任意类型的基于令牌的条件调节机制,参见第3.3节。
综上所述,我们的工作做出了以下贡献:

图1 用较少的下采样提高可实现质量的上限。由于扩散模型为空间数据提供了出色的归纳偏差,我们不需要在潜在空间中对相关生成模型进行大量的空间降采样,但仍然可以通过合适的自编码模型大大降低数据的维数,参见第3节。图像来自DIV2K验证集,评估为512x512像素。我们用f表示空间下采样因子。重建FIDs和PSNR在ImageNet-val上计算。另见表8。
- 与纯粹基于Transformer的方法相比,我们的方法更适合高维数据,因此可以:(a)在压缩级别上工作,提供比以前的工作更忠实和详细的重建(见图1);(b)可以有效地应用于百万像素图像的高分辨率合成。
- 我们在多个任务(无条件图像合成、图像绘制、随机超分辨率)和数据集上实现了具有竞争力的性能,同时显著降低了计算成本。与基于像素的扩散方法相比,我们还显著降低了推理成本。
- 我们表明,与之前的工作[93]相反,它同时学习编码器/解码器架构和基于分数的先验,我们的方法不需要精细的重构和生成能力加权。这确保了极其忠实的重建,并且只需要很少的潜在空间正则化。
- 我们发现,对于超分辨率、图像绘制和语义合成等密集条件任务,我们的模型可以以卷积方式应用,并呈现出~ 1024x1024像素的大而一致的图像。
- 此外,我们设计了一种基于交叉注意的通用条件反射机制,实现了多模态训练。我们用它来训练类条件、文本到图像和布局到图像模型。
- 最后,我们在Github发布了预训练的潜在扩散和自动编码模型。除了训练扩散模型之外还可以用于各种任务。
2 相关工作
图像合成的生成模型
图像的高维性质对生成建模提出了不同的挑战。生成对抗网络(GAN)允许对具有良好感知质量的高分辨率图像进行有效采样,但难以优化并且难以捕获完整的数据分布。相比之下,基于似然的方法强调良好的密度估计,从而使优化更加良好。变分自编码器(VAE)和基于流的模型能够有效地合成高分辨率图像,但样本质量不如GAN。虽然自回归模型(ARM)在密度估计方面具有很强的性能,但计算要求很高的架构和顺序采样过程将其限制在低分辨率图像上。由于基于像素的图像表示包含难以察觉的高频细节,最大似然训练在建模上花费了不成比例的容量,导致训练时间长。为了扩展到更高的分辨率,几种两阶段方法使用ARMs来模拟压缩的潜在图像空间,而不是原始像素。
最近,扩散概率模型(DM)[82]在密度估计和样本质量方面取得了最先进的结果。当这些模型的底层神经主干被实现为UNet时,这些模型的生成能力源于对类图像数据的归纳偏差的自然拟合。当使用重新加权的目标进行训练时,通常可以获得最佳的合成质量。在这种情况下,DM对应于有损压缩器,并允许以图像质量换取压缩能力。然而,在像素空间中评估和优化这些模型具有推理速度低和训练成本高的缺点。虽然前者可以通过高级采样策略和分层方法部分解决,但在高分辨率图像数据上进行训练总是需要计算昂贵的梯度。我们用我们提出的LDMs解决了这两个缺点,它在低维的压缩潜在空间上工作。这使得训练在计算上更便宜,并且在几乎不降低合成质量的情况下加速了推理(见图1)。
两阶段图像合成
为了减轻单独生成方法的缺点,许多研究已经通过两阶段方法将不同方法的优势结合成更有效和性能更好的模型。VQ-VAEs使用自回归模型来学习离散潜在空间上的表达先验。通过学习离散图像和文本表示的联合分布,将这种方法扩展到文本到图像的生成。更一般地说,使用条件可逆网络在不同域的潜在空间之间提供一般转移。与VQ-VAEs不同,VQGANs采用了具有对抗和感知目标的第一阶段,将自回归Transformer缩放到更大的图像。然而,可行的ARM训练所需的高压缩率,引入了数十亿个可训练参数,限制了这些方法的整体性能,减少压缩的代价是高昂的计算成本。我们的工作防止了这种权衡,因为我们提出的LDMs由于其卷积主干而更温和地扩展到更高维度的潜在空间。因此,我们可以自由选择在学习强大的第一阶段之间进行最佳调解的压缩水平,而不会将太多的感知压缩留给生成扩散模型,同时保证高保真重建(见图1)。
虽然存在联合或单独学习编码/解码模型和基于分数的先验的方法,但前者仍然需要在重建和生成能力之间进行困难的加权,并且被我们的方法(第4节)所超越,而后者则专注于高度结构化的图像,如人脸。
3 方法
为了降低训练扩散模型对高分辨率图像合成的计算需求,我们观察到,尽管扩散模型允许通过欠采样相应的损失项来忽略感知无关的细节,但它们仍然需要在像素空间中进行昂贵的函数评估,这导致了巨大的计算时间和能源需求。
我们建议通过引入压缩与生成学习阶段的明确分离来规避这一缺点(见图2)。为了实现这一目标,我们使用了一个自动编码模型,该模型学习了一个感知上等同于图像空间的空间,但显著降低了计算复杂性。
这样的方法有几个优点:
- 通过离开高维图像空间,我们获得了计算效率更高的DMs,因为采样是在低维空间上进行的。
- 我们利用了从其UNet架构中继承的DMs的归纳偏差,这使得它们对具有空间结构的数据特别有效,因此减轻了对以前方法所要求的积极的、降低质量的压缩级别的需求。
- 最后,我们获得了通用压缩模型,其潜在空间可用于训练多个生成模型,也可用于其他下游应用,如单幅图像CLIP引导合成。
3.1 感知图像压缩
我们的感知压缩模型基于先前的工作,由一个由感知损失和一个基于补丁的对抗目标组合训练的自编码器组成。这可以确保重构结果仅限于图像流形内,通过强制实现局部现实性,避免仅依赖像素空间损失(如L2或L1目标)所引入的模糊问题。
更准确地说,给定RGB空间中的图像,编码器
将x编码器为潜在表示
,解码器D从潜在表示中重建图像,给出
,其中
。重要的是,编码器按因子
对图像进行下采样,我们研究不同的下采样因子
,
。
为了避免任意高方差的潜在空间,我们实验了两种不同的正则化。第一个变种,KL-reg。与VAE类似,VQ-reg对习得潜伏的标准常态施加了轻微的KL惩罚。在解码器中使用矢量量化层。该模型可以解释为一个VQGAN,但量化层被解码器吸收。因为我们的后续DM被设计为与我们学习的潜在空间的二维结构一起工作,我们可以使用相对温和的压缩率并获得非常好的重建。这与之前的研究形成了对比,之前的研究依赖于学习空间z的任意一维排序来自回归建模其分布,从而忽略了z的许多固有结构。因此,我们的压缩模型更好地保留了x的细节(见表8)。完整的目标和训练细节可以在补充中找到

表8 完整的自编码器zoo在OpenImages上训练,在ImageNet-Val上评估。†表示无需注意的自动编码器。
3.2 潜在扩散模型
扩散模型是一种概率模型,旨在通过逐渐去噪正态分布变量来学习数据分布p(x),这相当于学习长度为T的固定马尔可夫链的反向过程。对于图像合成,最成功的模型依赖于p(x)的变分下界的重新加权变体,这反映了去噪分数匹配。这些模型可以解释为一个等加权的去噪自编码器序列;t = 1…T,它们被训练来预测其输入
的去噪变体,其中
是输入x的噪声版本。相应的目标可以简化为

t 从{1,...,T}中均匀采样。
有了我们训练过的由和D组成的潜在表征生成建模,我们现在可以访问一个有效的、低维的潜在空间,在这个空间中,高频的、不可察觉的细节被抽象掉了。与高维像素空间相比,这个空间更适合基于似然的生成模型,因为它们现在可以(i)专注于数据的重要语义位,(ii)在较低维,计算效率更高的空间中进行训练。
与之前依赖于高度压缩、离散潜在空间中的自回归、基于注意力的变形模型的工作不同,我们可以利用模型提供的图像特定的归纳偏差。这包括主要从2D卷积层构建底层UNet的能力,并使用重新加权的边界进一步将目标集中在感知上最相关的位上,现在读取

我们模型的骨干网络被实现为一个时间条件UNet。由于前向过程是固定的,所以在训练过程中可以有效地从
中获得
,并且p(z)的样本可以通过D一次解码到图像空间。
3.3 条件机制
与其他类型的生成模型相似,扩散模型原则上能够模拟形式的条件分布。这可以通过条件去噪自编码器
来实现,并为通过输入y(如文本、语义映射或其他图像到图像的翻译任务)来控制合成过程铺平了道路。
然而,在图像合成的背景下,将DMs的生成能力与类别标签或输入图像的模糊变体以外的其他类型的条件结合起来,迄今为止是一个未被充分探索的研究领域。

图3 通过串联或更一般的交叉注意力机制来调节LDMs。
我们通过使用交叉注意机制增强其底层UNet主干,将扩散模型转变为更灵活的条件图像生成器,这对于学习各种输入模式的基于注意的模型是有效的。为了从各种模式(如语言提示)预处理y,我们引入了一个特定领域的编码器,该编码器将y投影到中间表示
,然后通过跨注意层将其映射到UNet的中间层,实现
,与

这里的表示实现
和
的UNet的中间表示(展平的),
&
是可学习的投影矩阵。见图3的视觉展示。
基于图像条件对,我们通过
![]()
其中和
通过Eq. 3进行联合优化。这种调节机制是灵活的,因为
可以用特定领域的专家参数化,例如当y是文本提示符时的(未屏蔽)Transformers(参见第4.3.1节)。
4 实验
潜在扩散模型为各种图像模态的基于扩散的图像合成提供了灵活和计算易于处理的手段,我们在以下展示了这一点。然而,首先,我们分析了我们的模型在训练和推理方面与基于像素的扩散模型相比的增益。有趣的是,我们发现在VQ-正则化潜在空间中训练的潜在扩散模型有时可以获得更好的样本质量,尽管VQ-正则化第一阶段模型的重建能力略微落后于序列模型,参见表8。
4.1 关于感知压缩的权衡
本节分析具有不同下采样因子f∈{1,2,4,8,16,32}(缩写为LDM-f,其中LDM-1对应基于像素的扩散模型)的潜在扩散模型的行为。为了获得一个可比较的测试场,我们将本节中所有实验的计算资源固定在一台NVIDIA A100上,并以相同的步数和相同的参数数训练所有模型。

图6 分析了在ImageNet数据集上超过2M训练步长的不同下采样因子的类条件LDMs的训练。与具有较大下采样因子(LDM-{4-16})的模型相比,基于像素的LDM-1需要更大的训练时间。在LDM-32中,太多的感知压缩限制了整体样本质量。所有模型都在具有相同计算预算的单个NVIDIA A100上进行训练。100步DDIM得到的结果[84], = 0。
表8显示了本节比较的潜在扩散模型使用的第一阶段模型的超参数和重建性能。图6显示了在ImageNet数据集上,类条件模型训练2M步的样本质量与训练进度的关系。我们看到,
- i) LDM-{1,2}较小的下采样因子导致训练进度缓慢
- ii)过大的f值导致在相对较少的训练步骤后保真度停滞
回顾上面的分析(图1和图2),我们将其归因于
- i)将大部分感知压缩留给扩散模型
- ii)过于强大的第一阶段压缩导致信息丢失,从而限制了可实现的质量
LDM-{4-16}在效率和感知忠实度之间取得了很好的平衡,这体现在经过2M训练步骤后,基于像素的扩散(LDM-1)和LDM-8之间的FID差距显著为38。

图7 在CelebA-HQ(左)和ImageNet(右)数据集上比较不同压缩的LDMs。不同的标记表示使用DDIM的{10,20,50,100,200}采样步骤,沿着每行从右到左。虚线表示200步的FID分数,表明LDM-{4-8}性能较好。FID评分评估了5000个样本。所有模型都在A100上训练了500k (CelebA) / 2M (ImageNet)步数。
在图7中,我们比较了在CelebAHQ和ImageNet上训练的模型,使用DDIM采样器[84]对不同降噪步数的采样速度进行了比较,并将其与FID-scores进行了对比。LDM-{4-8}优于感知和概念压缩比例不合适的模型。特别是与基于像素的LDM-1相比,它们实现了更低的FID分数,同时显着提高了样本吞吐量。像ImageNet这样的复杂数据集需要降低压缩率以避免降低质量。综上所述,LDM-4和-8为获得高质量的合成结果提供了最佳条件。
4.2 基于潜在扩散的图像生成

表1 无条件图像合成的评价指标。CelebA-HQ结果自[43,63,100],FFHQ结果自[42,43]。†:N-s为DDIM采样器的N个采样步长。*:在KL正则化的潜在空间中训练。
我们在CelebA-HQ,FFHQ,LSUN-Churches和LSUN-bedroom上训练256x256图像的无条件模型,并使用 ii) FID和 ii) Precision-and-Recall评估 i)样本质量和 ii)它们对数据流的覆盖范围。表1总结了我们的结果。在CelebA-HQ上,我们报告了一个新的最先进的FID 5.11,优于以前的基于似然的模型和GAN。我们还优于LSGM,其中潜在扩散模型与第一阶段共同训练。相反,我们在固定的空间中训练扩散模型,避免了权衡重建质量与学习潜在空间先验的困难,如图1-2所示。

图4 来自在CelebAHQ 、FFHQ 、LSUN-Churches、LSUN-Bedrooms和类条件ImageNet 上训练的LDMs的样本,分辨率为256×256。
除了LSUN-bedroom数据集,我们在所有数据集上的表现都优于先前的基于扩散的方法,尽管使用了一半的参数,所需的训练资源减少了4倍,但我们的得分接近ADM。此外,LDMs在精度和召回率上始终优于基于GAN的方法,这证实了其基于模式覆盖的似然性训练目标在对抗方法上的优越性。在图4中,我们展示了每个数据集的定性结果。
4.3 条件潜在扩散
4.3.1 潜在扩散模型的Transformer编码器

图5 用户定义文本提示的样本来自我们的文本到图像合成模型LDM-8 (KL),该模型是在LAION数据上训练的。用200 DDIM步长和η = 1.0生成的样本。我们使用s = 10.0的无条件指导。

图8 在COCO上使用LDM进行布局到图像的合成,参见第4.3.1节。

表2 在256 × 256大小的MS-COCO数据集上评估文本条件图像合成:使用250 DDIM步,我们的模型与最新的扩散和自回归方法相当,尽管使用的参数显着减少。†/∗:来自[109]/[26]的数。
通过将基于交叉注意的条件作用引入潜在扩散模型,我们为扩散模型中以前未探索的各种条件作用模式打开了大门。对于文本到图像的图像建模,我们在LAION-400M上训练了一个以语言提示为条件的1.45B参数KL正则化LDM。我们使用BERT-tokenizer并实现作为transformer来推断通过(多头)交叉注意映射到UNet的潜在代码(第3.3节)。学习语言表示和视觉合成的特定领域专家的这种组合产生了一个强大的模型,它可以很好地推广到复杂的、用户定义的文本提示,参见图8、图5。对于定量分析,我们遵循先前的工作并评估MS-COCO验证集上的文本到图像生成,其中我们的模型在强大的AR和基于GAN的方法上得到了改进,参见表2。我们注意到,应用无分类器扩散制导极大地提高了样本质量,因此制导LDM-KL-8-G在文本到图像合成方面与最近最先进的AR和扩散模型相当,同时大大减少了参数计数。为了进一步分析基于交叉注意的调节机制的灵活性,我们还在OpenImages上训练了基于语义布局的图像合成模型,并在COCO上进行了微调,如图8所示。

表3 类条件ImageNet LDM与ImageNet[12]上最新的类条件图像生成方法的比较。与其他基线的更详细比较见D.4,表10和F. c.f.g.表示[32]中提出的无分类器的指导,其尺度为s。

表18 比较训练期间的计算需求和最先进的生成模型的推理吞吐量。在100天的训练期间,计算从[15]中获取的竞争方法的数量,除非另有说明;*:在单个NVIDIA A100上以样本/秒为单位测量的吞吐量;†:从[15]中获取的数量;††:R-FID与ImageNet验证集
最后,根据之前的工作,我们评估了表3、图4中f∈{4,8}的最佳类条件ImageNet模型。在这里,我们优于最先进的扩散模型ADM,同时显着减少了计算需求和参数计数,参见表18。
4.3.2 超过256x256的卷积采样
通过将空间对齐的条件信息连接到的输入,LDM可以作为高效的通用图像到图像转换模型。我们利用它来训练语义合成、超分辨率(4.4 节)和修复(4.5 节)模型。对于语义合成,我们使用与语义图配对的景观图像,并将语义图的下采样版本与 f = 4 模型的潜在图像表示(VQ-reg,见表 8)连接起来。我们在 256x256 的输入分辨率上进行训练(从 384x384 裁剪),但发现我们的模型可以推广到更大的分辨率,并且在以卷积方式评估时可以生成高达百万像素的图像(见图 9)。我们利用这种行为来应用 4.4 节中的超分辨率模型和 4.5 节中的修复模型,以生成 512x512 到 1024x1024 之间的大图像。对于这种应用,信噪比(由潜在空间的尺度引起)会显着影响结果。

表8 在 OpenImages 上训练的完整自动编码器 zoo,在 ImageNet-Val 上进行评估。† 表示无注意自动编码器。

图9 在 256x256 分辨率下训练的 LDM 可以推广到更大的分辨率(此处:512×1024),用于空间条件任务,例如景观图像的语义合成。请参阅第 4.3.2 节。
后者与无分类器指导相结合,还可以直接合成文本条件 LDM-KL-8-G 的大于 256x256 的图像,如图 13 所示。



图13 将无分类器扩散指导与第 4.3.2 节中的卷积采样策略相结合,我们的 1.45B 参数文本到图像模型可用于渲染大于模型训练的原始 2562 分辨率的图像。
4.4 利用潜在扩散实现超分辨率
通过直接通过连接对低分辨率图像进行调节,可以有效地训练 LDM 以实现超分辨率(参见第 3.3 节)。在第一个实验中,我们遵循 SR3,将图像退化修复为具有 4 倍下采样的双三次插值,并按照 SR3 的数据处理流程在 ImageNet 上进行训练。我们使用在 OpenImages 上预训练的 f = 4 自动编码模型(VQ-reg.,参见表 8),并将低分辨率条件 y 和 UNet 的输入连接起来,即是恒等式。我们的定性和定量结果(见图 10 和表 5)显示出具有竞争力的性能,LDM-SR 在 FID 中优于 SR3,而 SR3 具有更好的 IS。一个简单的图像回归模型获得了最高的 PSNR 和 SSIM 分数;然而,这些指标与人类感知不太吻合,并且更喜欢模糊而不是不完美对齐的高频细节。此外,我们进行了一项用户研究,将像素基线与 LDM-SR 进行了比较。我们遵循 SR3,其中向人类受试者展示两张高分辨率图像之间的低分辨率图像并询问他们的偏好。表 4 中的结果证实了 LDM-SR 的良好性能。可以通过使用事后引导机制来推动 PSNR 和 SSIM,我们通过感知损失来实现这种基于图像的引导。

图10 ImageNet-Val 上的 ImageNet 64→256 超分辨率。LDM-SR 在渲染逼真的纹理方面具有优势,但 SR3 可以合成更连贯的精细结构。有关其他样本和裁剪图,请参阅附录。SR3 结果来自。

表4 任务 1:向受试者展示真实图像和生成的图像,并询问受试者的偏好。任务 2:受试者必须在两张生成的图像之间做出选择。

表5 ×4 ImageNet-Val 上的升级结果。(256x256);†:在验证分割上计算的 FID 特征,‡:在训练分割上计算的 FID 特征;∗:在 NVIDIA A100 上评估。
由于双三次退化过程不能很好地推广到不遵循此预处理的图像,我们还通过使用更多样化的退化来训练通用模型 LDM-BSR。
4.5 利用潜在扩散模型进行图像修复
修复任务是用新内容填充图像的蒙版区域,因为图像的某些部分已损坏,或者要替换图像中现有但不想要的内容。我们评估了我们的条件图像生成通用方法与更专业的、最先进的方法相比如何。我们的评估遵循 LaMa的协议,这是一个最近的修复模型,它引入了一种依赖于快速傅里叶卷积的专门架构。
我们首先分析不同设计选择对第一阶段的影响。具体来说,我们比较了 LDM-1(即基于像素的条件 DM)与 LDM-4 的修复效率,包括 KL 和 VQ 正则化,以及第一阶段没有任何注意的 VQ-LDM-4(见表 8),其中后者减少了在高分辨率下解码的 GPU 内存。为了便于比较,我们固定了所有模型的参数数量。表 6 报告了分辨率为 256x256 和 512x512 的训练和采样吞吐量、每个 epoch 的总训练时间(以小时为单位)以及六个 epoch 之后验证分割的 FID 分数。总体而言,我们观察到基于像素和基于潜在的扩散模型之间的速度提高了至少 2.7 倍,同时 FID 分数提高了至少 1.6 倍。

表6 评估修复效率。†:由于 GPU 设置/批次大小不同导致与图 7 有偏差,请参见补充材料。

图7 在 CelebA-HQ(左)和 ImageNet(右)数据集上比较不同压缩率的 LDM。不同的标记表示使用 DDIM 的 {10, 20, 50, 100, 200} 采样步骤,从右到左沿着每条线。虚线显示 200 步的 FID 分数,表明 LDM-{4-8} 性能强劲。FID 分数在 5000 个样本上评估。所有模型都在 A100 上针对 500k(CelebA)/ 2M(ImageNet)步骤进行了训练。
表 7 中与其他修复方法的比较表明,与 文献[88] 相比,我们的注意模型提高了 FID 测量的整体图像质量。未蒙版图像和我们的样本之间的 LPIPS 略高于文献 [88]。我们将其归因于文献[88] 仅产生单一结果,与我们的 LDM cf 产生的不同结果相比,该结果往往恢复了更多的平均图像。图 21。此外,在一项用户研究(表 4)中,人类受试者更喜欢我们的结果,而不是文献 [88] 的结果。



图21 图像修复的定性结果。与文献[88] 相比,我们的生成方法能够针对给定的输入生成多个不同的样本。
基于这些初步结果,我们还在 VQ 正则化第一阶段的潜在空间中训练了一个更大的扩散模型(表 7 中的 big),该模型没有使用注意力机制。根据 [15],该扩散模型的 UNet 在其特征层次结构的三个级别上使用注意力层,使用 BigGAN [3] 残差块进行上采样和下采样,并且具有 387M 个参数,而不是 215M。训练后,我们注意到分辨率为 256x256和 512x512 时生成的样本质量存在差异,我们推测这是由额外的注意模块造成的。然而,在分辨率为 512x512 的情况下对模型进行半个周期的微调,可使模型适应新的特征统计数据,并在图像修复方面树立新的先进 FID(big, w/o attn, w/ ft in Tab. 7, Fig. 11.)。

表7 对 Places测试图片中 30k 个 512×512 大小的裁剪图像的修复性能进行比较。40-50% 列报告了针对需要修复 40-50% 图像区域的困难样本计算得出的指标。† 在我们的测试集上重新计算,因为 文献[88] 中使用的原始测试集不可用。

图11 使用我们的大型、w/ft 修复模型去除物体的定性结果。
5 局限性和社会影响
局限性
虽然与基于像素的方法相比,LDM 显著降低了计算要求,但它们的顺序采样过程仍然比 GAN 慢。此外,当需要高精度时,使用 LDM 可能会引起问题:虽然在我们的 f = 4 自动编码模型中图像质量损失很小(见图 1),但它们的重建能力可能会成为需要像素空间细粒度精度的任务的瓶颈。我们假设我们的超分辨率模型(第 4.4 节)在这方面已经受到一定限制。
社会影响
图像等媒体的生成模型是一把双刃剑:一方面,它们可以实现各种创造性应用,尤其是像我们这样降低训练和推理成本的方法,有可能促进这项技术的普及,并使其探索民主化。另一方面,这也意味着创建和传播操纵数据或传播错误信息和垃圾邮件变得更加容易。特别是,故意操纵图像(“深度伪造”)是这种背景下的一个常见问题,女性尤其受到不成比例的影响。
生成模型还可以泄露其训练数据,当数据包含敏感或个人信息且未经明确同意而收集时,这会引起极大担忧。然而,这种情况在多大程度上也适用于图像的 DM 尚不完全清楚。
最后,深度学习模块往往会重现或加剧数据中已经存在的偏差。虽然扩散模型比基于 GAN 的方法更好地覆盖了数据分布,但我们结合对抗性训练和基于可能性的目标的两阶段方法在多大程度上歪曲了数据,这仍然是一个重要的研究问题。
6 结论
我们提出了潜在扩散模型,这是一种简单有效的方法,可以显著提高去噪扩散模型的训练和采样效率,而不会降低其质量。基于此方法和我们的交叉注意调节机制,我们的实验可以在没有任务特定架构的广泛条件图像合成任务中展示出与最先进方法相比的良好结果。
2019

被折叠的 条评论
为什么被折叠?



