DDIM(Denoising Diffusion Implicit Models)是一种改进的扩散模型,旨在提高生成样本的效率和质量。扩散模型通过逐步添加噪声将数据分布转化为简单分布(如高斯分布),再通过逆向过程从噪声中生成数据。传统扩散模型(如DDPM)需要大量时间步长,导致生成速度较慢。
DDIM通过引入非马尔可夫过程,减少生成所需的时间步长,同时保持生成质量。其特点一是非马尔可夫过程,允许跳过某些中间步骤,加速生成。第二点是确定性生成,即通过固定噪声,使生成过程可重复。
DDPM回顾
可以参考前篇的笔记:DDPM学习笔记
前向过程:ddpm的前向过程是一个马尔科夫过程,我们将噪声逐渐加入数据,使得数据逐渐变成噪声。
反向过程:通过逐步去噪来恢复原始数据的。假设我们有 ,DDPM通过学习这个条件概率来逐步去噪。
其中 是通过学习得到的去噪均值,
是噪声的方差。
ddpm 存在的问题:采样速度慢
- 在对
的推导中,DDPM用到了马尔科夫假设。因此我们的采样必须要严格遵照马尔科夫性质,也就是必须从x到x-1一步一步来,不能“跳步”。重建的步长非常长,导致速度慢。
- 同时,不能通过减小T来加快采样速度,否则会降低图像质量。
DDIM
DDPM 的优化目标 Lγ 只依赖于边际分布 q(xt∣x0),而不直接依赖于联合分布 q(x1:T∣x0)。由于存在许多具有相同边际分布的联合分布,DDIM 探索了非马尔可夫的推理过程(inference process),从而引出了新的生成过程。
因此,即使我们改变推断路径(从x0到xT的具体步骤)使其不再是马尔科夫链,只要每一步的边缘概率q(x|xo)保持不变,就不会影响最终目标,即可以沿用DDPM的预测噪音的目标函数Lγ 来训练模型。
前向过程
DDIM的前向过程与DDPM基本相同,逐步向数据中加入噪声,直到数据完全变成噪声(马尔科夫链)。(尽管在两个论文中,对于参数的表述并非完相同)
反向过程
DDIM的关键在于,它在反向扩散过程时不再严格遵循马尔科夫链假设,而是采用了隐式的去噪方式,使得每一步的噪声变化不再依赖于前一步的噪声。DDIM通过改变每一步的噪声采样方式来减少生成步骤。
DDIM推理分布
- 假设条件分布
是一个高斯分布,形式为
- 即:
-
k 和 m 是待定系数。
ϵ∼N(0,I)是标准高斯噪声。
为什么假设成
的形式?
前向过程的公式为:
这个公式表明,xt 是 x0 和高斯噪声的线性组合。因此,反向过程也假设为类似的线性组合形式是自然的。
可以通过待定系数法求解 k 和 m,使得条件分布的边际分布与前向过程的边际分布一致。这种假设使得推导过程更加简洁和直观。
- 将
代入
代入前向公式(
)
-
- 合并同类项,得:
-
- 由于
和
都服从标准正态分布(它们的线性组合仍然是高斯噪声),因此二者可合并为同一个正态分布,即:
-
- 联立求解可得:
- 至此,得到了我们新的推理分布:
-
生成过程
①目标
- 从
生成数据 逐步去噪,最终生成一个清晰的样本
。
- 为了做到这一点,我们需要定义一个 可训练的生成过程:
- 其中,每个 反向过程
需要从
进行近似学习。
- 换句话说,我们希望找到一个方式,在每个时间步 t 预测
,最终获得
②预测
是模型预测的噪声。
是噪声调度参数。
这个公式的作用是从噪声数据 xt 中估计原始数据 x0。
- 为了采样
,我们需要知道
。但我们只观察到
,所以要预测
。
- 扩散模型中,
是由
加上某个噪声 ϵ 形成的:
- 因此,我们可以反过来用去噪模型
预测
:
③定义采样方式
- 进而用固定的先验
对生成过程做出如下定义:
- 当 t=1 时,最终一步的采样直接来自预测的 x0(并加上微小噪声
)。
- 其他情况下,我们按照 非马尔可夫反向过程 计算
。
④优化目标
其与ddpm大体相似,但是也有不同之处:
-
前向分布 qσ(xt−1∣xt,x0) 允许引入额外的参数 σ,从而使得生成过程更加灵活。
-
生成分布 pθ(t)(xt−1∣xt)也是高斯分布,但其均值和方差的计算方式与 DDPM 不同。
同时还可以证明,DDIM和DDPM的目标函数的关系如下:(虽然我不会证明,但是结论确实是这个)
为什么这样就可以采样时间变短?
- DDIM 的生成过程是非马尔可夫的,允许跳过一些中间步骤,直接从
生成
- 直接预测 x0:通过公式
直接预测 x0,而不是像 DDPM 那样逐步预测噪声 ϵt。
、
总结
DDPM 和 DDIM 的训练过程是相似的,只有生成(采样)过程不同。
训练都是:
不同的生成:ddpm:
ddim:
特性 | DDPM | DDIM |
---|---|---|
采样方式 | 随机采样(马尔可夫链) | 确定性采样 |
采样速度 | 需要较多步数(通常1000步) | 需要较少步数(如50步) |
生成多样性 | 高(采样具有随机性) | 可控(可在确定性与随机性之间调整) |
计算效率 | 慢 | 快 |
逆扩散(可逆性) | 不是严格可逆 | 可逆,可用于图像编辑 |
- DDIM更适合高效推理,如图像生成、视频生成、风格转换等任务,特别是在时间和计算资源受限的情况下。
- DDPM更适合训练高质量模型,在需要高多样性生成的任务(如无条件图像生成)中仍然占优。