神经网络学习笔记17——深度生成模型架构UNet、DDPM、LDM、DiT

原创已于 2025-12-06 09:52:05 修改 · 918 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#神经网络 #学习 #笔记 #stable diffusion #生成对抗网络 #AI作画

于 2025-12-03 11:19:50 首次发布

深度学习专栏收录该内容

33 篇文章

订阅专栏

系列文章目录

参考博客

前言

在这里插入图片描述
深度生成模型是人工智能领域的重要分支，它通过学习数据的潜在分布来生成新的数据样本。

GAN：博弈中的创造
GAN的创新在于其“左右互博”的对抗训练机制。生成器Generator负责制造“假数据”，而判别器Discriminator则负责甄别数据的真伪。二者相互博弈、共同进化，最终目标是让生成器能产出以假乱真的结果。这种机制使得GAN在图像生成上表现出色，能产生细节非常逼真的样本。但其主要挑战在于训练过程可能不稳定，且容易发生“模式崩溃”，且生成器只产生少数几种类型的样本，缺乏多样性，其训练难度限制了其在超大模型时代的普及。。
VAE：概率世界的编码器
VAE的核心思想是将输入数据映射到一个概率潜在空间，通常假设服从高斯分布。它包含编码器和解码器。编码器将输入数据压缩为潜在空间中的均值和方差参数，然后从该分布中采样得到一个潜在向量，解码器再尝试从这个向量重构出原始数据。VAE的优势在于训练过程相对稳定，并且学习到的隐变量空间具有良好的数学意义，便于数据插值和探索。但其生成的结果有时会显得比较模糊或平滑，不如GAN生成的样本锐利。
Flow：精确的变量变换
流模型Flow-based Models旨在通过一系列可逆的数学变换，将一个简单的基础分布精确地转化为复杂的数据分布。因为每一步变换都是可逆的，所以模型可以精确地计算任何数据点的概率密度（对数似然），而无需近似。这也意味着隐变量和数据点具有完全相同的维度，并且可以通过逆变换从隐变量精确地生成数据。但其挑战在于，可逆变换的设计要求很高，通常计算成本也较大。
Diffusion：去噪中的艺术
扩散模型Diffusion Models是当前的热点，其灵感来源于非平衡热力学。它包含两个过程：前向过程是逐步向原始数据添加噪声，直至数据完全变为随机噪声；反向过程则是学习如何从噪声中一步步地去除噪声，恢复出原始数据结构。模型学习的核心就是这个去噪的过程。扩散模型的优势在于训练目标简单且稳定，生成的样本多样性和质量都非常高。其主要缺点是生成速度相对较慢，因为它通常需要数百甚至上千步的去噪迭代才能得到最终结果。

一、UNet模型

UNet论文地址

1、经典UNet结构

在这里插入图片描述

阶段一：输入572×572×1的单通道灰度图，进行两次连续的无padding3×3卷积+ReLU激活函数组成，通道数从1增加到64。

阶段二：对阶段一的输出进行2×2最大池化下采样操作，进行两次连续的无padding3×3卷积+ReLU激活函数组成，通道数从64增加到128。

阶段三：对阶段二的输出进行2×2最大池化下采样操作，进行两次连续的无padding3×3卷积+ReLU激活函数组成，通道数从128增加到256。

阶段四：对阶段三的输出进行2×2最大池化下采样操作，进行两次连续的无padding3×3卷积+ReLU激活函数组成，通道数从256增加到512。

阶段五：对阶段四的输出进行2×2最大池化下采样操作，进行两次连续的无padding3×3卷积+ReLU激活函数组成，通道数从512增加到1024。

阶段六：对阶段五的输出进行2×2转置卷积上采样操作且通道数减半，使用跳跃连接操作+裁剪操作将阶段四的输出特征图与上采样特征图进行拼接。再进行两次连续的无padding3×3卷积+ReLU激活函数组成，通道数从1024减少到512。

阶段七：对阶段六的输出进行2×2转置卷积上采样操作且通道数减半，使用跳跃连接操作+裁剪操作将阶段四的输出特征图与上采样特征图进行拼接。再进行两次连续的无padding3×3卷积+ReLU激活函数组成，通道数从512减少到256。

阶段八：对阶段七的输出进行2×2转置卷积上采样操作且通道数减半，使用跳跃连接操作+裁剪操作将阶段四的输出特征图与上采样特征图进行拼接。再进行两次连续的无padding3×3卷积+ReLU激活函数组成，通道数从256减少到128。

阶段九：对阶段八的输出进行2×2转置卷积上采样操作且通道数减半，使用跳跃连接操作+裁剪操作将阶段四的输出特征图与上采样特征图进行拼接。再进行两次连续的无padding3×3卷积+ReLU激活函数组成，通道数从128减少到64。最后使用一个1×1卷积操作进行处理，得到最终的输出特征图，输出通道数为2。

在上采样时使用的裁剪操作，属于中心裁剪操作：
在这里插入图片描述

UNet模型的左侧路径为编码器，作用是特征提取和降维，将图像信息压缩成一个小的、但具有大量通道数的高维特征图。
UNet模型的右侧路径为解码器，作用是特征融合和上采样，将压缩的特征恢复为原始输入图像大小的像素级分类结果，精确地还原物体的边缘细节。

现阶段的UNet模型结构对原始的UNet模型结构有进一步优化，主要使用padding+3×3卷积+BN+ReLU激活函数，这样可以避免每个阶段的特征图尺寸缩小问题、特征丢失问题以及多余的裁剪操作，在加强特征提取能力的同时还可以让输入和输出大小一致。

二、DDPM模型

DDPM论文地址
 IDDPM论文地址
 IDDPM论文地址

Denoising Diffusion Probabilistic Models，DDPM是扩散模型的一种，在视觉领域是属于生成式的模型。

扩散模型中最重要的思想根基是马尔可夫链，它的一个关键性质是平稳性。即如果一个概率随时间变化，那么在马尔可夫链的作用下，它会趋向于某种平稳分布，时间越长，分布越平稳。

DDPM的核心思想可以简单理解为让模型学会一步步地把一张完全噪声的图片去噪还原成清晰的图片，从而掌握图片的生成能力。

所以DDPM模型的的结构主要包含两个部分，即前向加噪过程和反向去噪过程。

1、Diffusion前向加噪

前向加噪可以理解为一种特殊的分子扩散运动，所谓分子扩散运动本质是物质分子从高浓度区域自发地、永不停息地运动到低浓度区域，直到分布均匀为止。由于分子的无规则扩散运动，液体中的紫色分子会随机地向四周扩散，经过足够长的时间，溶液中任何一处的紫色分子的浓度达到动态平衡。

在这里插入图片描述

通过一系列步骤，逐步向清晰图片中添加微小的高斯噪声，直到图片完全变成一个无法辨认的随机噪声图。
在这里插入图片描述

$X_t = f(X_{t-1})= \sqrt{1-\beta_t}\ast X_{t-1}+\sqrt{\beta_t}\ast Z_t \ \ \ \ \ \ \ \ \ Z_t\sim N(0,I)$
$X_t$ 、 $X_{t-1}$ ：分别表示时间步t和t−1的状态变量。 $X_0$ 通常代表第0步的原始图像数据，而 $X_t$ 是从第0步逐步累加噪声直到第t步的图像数据。
$\beta_t$ ：是一个超参数，满足0< $\beta_t$ <1，通常随着时间步t的增加而单调递增，使得越到后面扩散速度越快。 $\beta_t$ 负责控制噪声添加的强度， $\beta_t$ 越小，过程越保留前状态， $\beta_t$ 越大，噪声占主导。
$Z_t$ ：是一个随机噪声项，服从标准多元正态分布，即均值为0、协方差矩阵为单位矩阵 $I$ 。这表示噪声是独立同分布的，每个维度互不相关。

该公式描述了一个随机过程，定义了当前状态变量 $X_t$ 如何从上一个状态 $X_{t-1}$ 通过添加噪声演变而来。

$\alpha_t = 1-\beta_t$
将 $1-\beta_t$ 转换为 $\alpha_t$ ，方便计算与观察。

$X_t = \sqrt{\alpha_t}\ast X_{t-1}+\sqrt{1-\alpha_t}\ast Z_t$
$X_{t-1} = \sqrt{\alpha_{t-1}}\ast X_{t-2}+\sqrt{1-\alpha_{t-1}}\ast Z_{t-1}$
把 $\alpha_t$ 代入到 $X_{t}$ 公式中，并按相同逻辑推导出 $X_{t-1}$ 公式。

$X_t = \sqrt{\alpha_t}\ast (\sqrt{\alpha_{t-1}}\ast X_{t-2}+\sqrt{1-\alpha_{t-1}}\ast Z_{t-1})+\sqrt{1-\alpha_t}\ast Z_t$
$\sqrt{\alpha_t\alpha_{t-1}}\ast X_{t-2}+\sqrt{\alpha_t-\alpha_t\alpha_{t-1}}\ast Z_{t-1}+\sqrt{1-\alpha_t}\ast Z_t$
使用 $X_{t-1}$ 公式替代 $X_{t}$ 公式中的 $X_{t-1}$ 参数，并简化得到新的 $X_{t}$ 公式。

$\sqrt{1-\alpha_t}\ast Z_t\sim N(0,(1-\alpha_t)\ast I)$
$\sqrt{\alpha_t-\alpha_t\alpha_{t-1}}\ast Z_{t-1}\sim N(0,(\alpha_t-\alpha_t\alpha_{t-1})\ast I)$
$(\sqrt{\alpha_t-\alpha_t\alpha_{t-1}}\ast Z_{t-1}+\sqrt{1-\alpha_t}\ast Z_t)\sim N(0,(1-\alpha_t\alpha_{t-1})\ast I)$
基于噪声项的正态分布和正态分布的可加性，使得每个缩放噪声项服从正态分布，方差为缩放因子的平方。

$X_{t-1}=\sqrt{\alpha_t\alpha_{t-1}}\ast X_{t-2}+\sqrt{1-\alpha_t\alpha_{t-1}}\ast Z \ \ \ \ \ \ \ \ \ Z\sim N(0,I)$
$X_{t}=\sqrt{\alpha_t\alpha_{t-1}...\alpha_1}\ast X_{0}+\sqrt{1-\alpha_t\alpha_{t-1}...\alpha_1}\ast Z \ \ \ \ \ \ \ \ \ Z\sim N(0,I)$
$X_t = \sqrt{\overline{\alpha_t}}\ast X_{0}+\sqrt{1-\overline{\alpha_t}}\ast Z \ \ \ \ \ \ \ \ \ Z\sim N(0,I)$
根据 $X_{t}$ 到 $X_{t-1}$ 的逻辑，可以推广到任意步长逐步回溯 $X_0$ 。把累积乘积 $\alpha_n$ 抽象为 $\overline{\alpha_t}$ 。同样因为 $Z$ 是随机的，所以可以把 $Z$ 和 $I$ 抽象出来。

最后的公式表示 $X_{t}$ 可直接从 $X_{0}$ 通过一次线性变换生成，其中噪声水平由 $\overline{\alpha_t}$ 控制（当 t增大时， $\overline{\alpha_t}$ →0，即 $X_{t}$ 趋近于纯噪声）。也就是说可以直接从原图 $X_0$ 一步计算生成第 $t$ 步之后的扩散图 $X_t$ ，而不需要再一步接一步的计算每次的扩散。

2、Reverse反向去噪

在这里插入图片描述
$X_0 = \frac{X_t-\sqrt{1-\overline{\alpha_t}}\ast Z}{\sqrt{\overline{\alpha_t}}} \ \ \ \ \ \ \ \ \ Z\sim N(0,I)$

按照上面扩散逻辑的推理公式，通过反转公式可以直接从噪声图 $X_t$ 一步计算出目标图 $X_0$ ，但是在实际实验中这么做的得到的效果无法让人满意，且不符合逆扩散的过程，所以反而需要一步一步推。

$P(A\mid B) = \frac{P(A\bigcap B)}{P(B)}$
$P(B\mid A) = \frac{P(A\bigcap B)}{P(A)}$
$P(A\mid B) = \frac{P(A\bigcap B)}{P(B)} = \frac{P(B\mid A)P(A)}{P(B)}$
以上是一个标准的概率论贝叶斯定理的推导过程。

$P(X_{t-1}\mid X_t) = \frac{P(X_t\mid X_{t-1})P(X_{t-1})}{P(X_t)}$
$P(X_{t-1}\mid X_t,X_0) = \frac{P(X_t\mid X_{t-1},X_0)P(X_{t-1}\mid X_0)}{P(X_t\mid X_0)}$
根据以上的贝叶斯定理的逻辑，推广到时间序列中的条件概率，使得能够描述 $X_t$ 和 $X_{t-1}$ 状态之间的概率关系，且在条件于 $X_0$ 时正确。

$P(X_t\mid X_{t-1})\sim N(\sqrt{\alpha_t}\ast X_{t-1},(1-\alpha_t)\ast I)$
$P(X_t\mid X_{0})\sim N(\sqrt{\overline{\alpha_t}}\ast X_{0},(1-\overline{\alpha_t})\ast I)$
$P(X_{t-1}\mid X_{0})\sim N(\sqrt{\overline{\alpha_{t-1}}}\ast X_{0},(1-\overline{\alpha_{t-1}})\ast I)$

结合以上计算的扩散模型前向定义和条件分布 $P$ 的表示，对于给定的前一个状态，统计当前状态的正态分布。

$X\sim N(\mu,\sigma^2)$
$\frac{1}{\sigma \sqrt{2\pi}}e^{-\frac{1}{2}(\frac{x-\mu}{\sigma})^2}$
以上公式为服从正态分布的随机变量 $x$ 的概率密度函数，结合以上公式解释其中的参数：
$x$ ：随机变量可能的取值。
$\mu$ ：分布的均值或期望值。它决定了分布中心的位置。在您提供的扩散模型公式中，比如 $\sqrt{\alpha_t}\ast X_{t-1}$ 就是均值。
$\sigma$ ：分布的标准差。它衡量了数据分布的离散程度，值越大，数据越分散。 $\sigma^2$ 是标准差的平方,在扩散模型的公式中，就是 $(1-\alpha_t)$ 方差。
$\pi$ ：圆周率，约等于 3.14159。
$e$ ：自然常数，约等于 2.71828。

$P(X_{t-1}\mid X_t,X_0) = \frac{\frac{1}{\sqrt{1-\alpha_t} \sqrt{2\pi}}e^{-\frac{1}{2}(\frac{x_t-\sqrt{\alpha_t}\ast X_{t-1}}{\sqrt{1-\alpha_t}})^2}\frac{1}{\sqrt{1-\overline{\alpha_{t-1}}} \sqrt{2\pi}}e^{-\frac{1}{2}(\frac{x_{t-1}-\sqrt{\overline{\alpha_{t-1}}}\ast X_{0}}{1-\overline{\alpha_{t-1}}})^2}}{\frac{1}{\sqrt{1-\overline{\alpha_t}} \sqrt{2\pi}}e^{-\frac{1}{2}(\frac{x_t-\sqrt{\overline{\alpha_t}}\ast X_{0}}{1-\overline{\alpha_t}})^2}}$

$=\frac{1}{\frac{\sqrt{1-\alpha_t}\sqrt{1-\overline{\alpha_{t-1}}}}{\sqrt{1-\overline{\alpha_t}}} \sqrt{2\pi}}e^{-\frac{1}{2}(\frac{(x_{t-1}-(\frac{\sqrt{\alpha_t}(1-\overline{\alpha_{t-1}})}{1-\overline{\alpha_t}}x_t+\frac{\sqrt{\overline{\alpha_{t-1}}}(1-\alpha_t)}{1-\overline{\alpha_t}}x_0))}{\frac{\sqrt{1-\alpha_t}\sqrt{1-\overline{\alpha_{t-1}}}}{\sqrt{1-\overline{\alpha_t}}}})^2}$

$P(X_{t-1}\mid X_t,X_0)\sim N((\frac{\sqrt{\alpha_t}(1-\overline{\alpha_{t-1}})}{1-\overline{\alpha_t}}x_t+\frac{\sqrt{\overline{\alpha_{t-1}}}(1-\alpha_t)}{1-\overline{\alpha_t}}\times \frac{X_t-\sqrt{1-\overline{\alpha_t}}\ast Z}{\sqrt{\overline{\alpha_t}}}),(\frac{\sqrt{1-\alpha_t}\sqrt{1-\overline{\alpha_{t-1}}}}{\sqrt{1-\overline{\alpha_t}}})^2)$

把 $f (x)$ 公式代入到 $P(X_{t-1}\mid X_t,X_0)$ 公式中进行简化计算，再根据概率密度函数 $f (x)$ 和 $X\sim N$ 的参数位置映射回 $P(X_{t-1}\mid X_t,X_0)\sim N$ 中，最后使用 $x_0$ 的反转公式替换 $x_0$ 。

$P(X_{t-1}\mid X_t,X_0)\sim N((\frac{\sqrt{\alpha_t}(1-\overline{\alpha_{t-1}})}{1-\overline{\alpha_t}}x_t+\frac{\sqrt{\overline{\alpha_{t-1}}}\beta_t}{1-\overline{\alpha_t}}\times \frac{X_t-\sqrt{1-\overline{\alpha_t}}\ast Z}{\sqrt{\overline{\alpha_t}}}),\beta_t\frac{1-\overline{\alpha_{t-1}}}{1-\overline{\alpha_t}})$
$Z = UNet(x_t,t)$
在以上公式中 $\alpha_t$ 和 $\beta_t$ 是已知的超参数， $x_t$ 是已知的噪声图，只有 $Z$ 是未知需要训练的参数，而 $Z$ 可以在UNet模型中训练。

3、IDDPM模型

在这里插入图片描述

1.自适应方差

在DDPM的反向去噪过程中，每一步加入的超参数噪声方差 $\alpha_t$ 和 $\beta_t$ 是固定的。这意味着模型只学习数据的均值（即预测噪声），而方差是预设的常数。
而IDDPM允许模型同时学习均值和高斯分布的方差。在实验中，模型学到的方差在最后几步会非常小，从而实现更精细的微调，显著提升了生成图像的清晰度和细节。

2.余弦噪声调度

在DDPM中使用的是线性调度，从 t=0到 t=T，噪声水平 $\beta_t$ 从很小值线性增加到接近1。这会导致在过程的开始和结束阶段，噪声水平变化非常剧烈。
而在IDDPM中使用的是余弦调度，使用一个基于余弦函数的调度，使得噪声的变化在开始和结束时非常平缓，而在中间阶段变化相对较快。
相对于线性调度而言，其实余弦调度更符合人类的感知。
在扩散初期，图像被快速“破坏”成噪声是合理的；在扩散末期，对几乎已是纯噪声的图像只施加微小的改变。使得训练过程更稳定，生成效果更好。

3.优化的UNet

首次将 Transformer 的自注意力机制集成到了用于扩散模型的 UNet 中，这极大地提升了模型对图像全局一致性的建模能力，此时的结构已经具备了自注意力的 QKV。

4、DDIM模型

在这里插入图片描述

相对DDPM而言，DDIM 的优化不是对模型架构或训练过程的修改，而是对采样算法的根本性革新。
其核心思想是：重新定义前向过程，使其在训练目标不变的情况下，实现更高效的逆向采样。

DDPM的逆向过程使用的是马尔可夫链思想，必须一步接一步地从纯噪声 $x_t$ 迭代到清晰图像 $x_0$ 。如果训练时用了1000步，前向采样也必须走完1000步，计算成本极高。

DDIM则提出了一种非马尔可夫的前向过程，从而允许训练好的模型大幅的去减少前向采样的步数。如果训练时用了1000步，前向采样只需要50步，计算成本大大降低。

DDIM的采样公式是对方程的精确解的一种离散化近似，其设计本身就考虑了大步长的情况。因此，即使在步数很少时，它也能生成非常清晰、连贯的图像，而DDPM在同等步数下会产生大量伪影和不连贯的结构。这一发现为扩散模型引入了ODE的数学概念，启发了后续一系列更高阶、更高效的ODE求解器（如DPM-Solver），进一步推动了采样速度的提升。可以说，DDIM是连接早期DDPM和现代快速扩散模型算法的关键桥梁。

三、LDM模型

High-Resolution Image Synthesis with Latent Diffusion Models论文地址

1、模型结构

在这里插入图片描述
红色区域表示像素空间Pixel Space：
$x,\tilde{x}$ ：输入输出的真实图像数据

$\varepsilon$ ：输入图像的编码器，将输入的真实图像压缩为一个维度小得多的潜在表示 $z$ ，可以理解为经过下采样的特征图，目的是去掉图像中的高频细节，保留了核心的语义信息。

$D$ ：输出图像的解码器，当潜在表示 $z$ 在潜在空间中完成去噪后，得到新的潜在表示 $\tilde{z}$ 后，通过解码器 $D$ 将 $\tilde{z}$ 重建回像素空间的最终高清图像 $\tilde{x}$ 。

绿色区域表示潜在空间Latent Space：
$Diffusion\ Process$ ：在低维空间中对潜在表示 $z$ 进行扩散加噪过程。

$Denoising\ UNet\ \epsilon_{\theta}$ ：在低维空间中对潜在表示 $z_T$ 进行预测去噪过程。

$denoising\ step$ ：在 $z_T$ 到 $z_{T-1}$ 期间的去噪步骤，每一步都经历一次UNet处理，从 $z_T$ 到 $z$ 需要迭代T步。

$cross\ attention$ ：表示交叉注意力机制，让去噪阶段能够受到外界的文本或其他输入对模型进行引导的关键机制。允许图像生成期间能关注文本描述中的特定词语。

$s w i t c h$ ：表示开关，使得模型能在无条件生成和有条件生成之间的自主切换。这是实现 Classifier-Free Guidance 技术的核心。

$skip\ connection$ ：表示跳跃连接，是UNet模型架构的中的一种设计，可以实现模型中的下采样和上采样之间的特征流动。

$co n c a t$ ：表示拼接，将时间步信息与UNet中的特征图进行拼接，将两个或多个张量在某个维度上连接起来。

$z,z_T$ ：潜在向量表示 $z$ 和经过T步扩散加噪的潜在向量表示 $z_T$ 。

$Q, K, V$ ：表示UNet模型中的交叉注意力块。

白色区域表示调节空间Conditioning：
$Semantic\ Map、Text、Representations、Images$ ：表示语义图、文本、表征、图像等形式的调节信号。

$\tau_{\theta}$ ：表示条件编码器，用把编码调节信号编码成U-Net能够理解的统一特征向量。

2、公式原理

$x_t = \sqrt{\overline{\alpha_t}}\ast x+\sqrt{1-\overline{\alpha_t}}\ast \epsilon$
$L_{DM} = \Bbb{E}_{x,\epsilon \ast N(0,1),t}[\parallel \epsilon-\epsilon_{\theta}(x_t,t)\parallel_2^2]$
以上两条公式分别是前向扩散公式和标准扩散模型的训练损失函数，其中：
$L$ ：表示扩散模型的损失值
$\Bbb{E}$ ：表示期望值，用于计算对多个变量的平均。
$x,x_t$ ：表示图像数据 $x$ 与加噪图像数据 $x_t$ 。
$\epsilon,\epsilon_{\theta}$ ：表示预测噪声和UNet去噪网络。
$\parallel \cdot \parallel_2^2$ ：表示L2范数的平方，即MSE均方误差。
这两个函数源于去噪扩散概率模型DDPM，通过最小化预测噪声的误差来训练模型。

$L_{LDM} = \Bbb{E}_{\varepsilon(x),\epsilon \ast N(0,1),t}[\parallel \epsilon-\epsilon_{\theta}(z_t,t)\parallel_2^2]$
以上公式是无条件调节潜在扩散模型的训练损失函数，其中：
$z_t$ ：表示潜在变量 $z$ 经过时间步t后得到的加噪图像，而 $z$ 是编码器对真实图像数据 $x$ 处理后得到的输出。
无条件调节LDM通过编码器在潜在空间中压缩数据，然后应用到扩散过程，提高扩散效率，常用于高分辨率图像生成。

$L_{LDM} = \Bbb{E}_{\varepsilon(x),y,\epsilon \ast N(0,1),t}[\parallel \epsilon-\epsilon_{\theta}(z_t,t,\tau_{\theta}(y))\parallel_2^2]$
以上公式是条件调节潜在扩散模型的训练损失函数，其中：
$\tau_{\theta}$ ：表示条件编码器，负责将条件 $y$ 映射为嵌入向量，比如CLIP或BERT等。
$y$ ：表示有条件输入，主要是以语义图、文本、表征、图像等形式数据作为输入。
条件调节LDM允许可控生成，可根据文本等内容生成图像，这些条件信息是通过交叉注意力机制集成到去噪网络中。

$softmax(\frac{QK^T}{\sqrt{d_k}})V$
$W_Q^{(i)}\cdot \phi_i(z_t), K = W_K^{(i)}\cdot \tau_{\theta}(y), V = W_V^{(i)}\cdot\tau_{\theta}(y)$
以上两条公式分别是标准注意力机制公式和条件注入QKV公式，其中：
$Q, K, V$ ：表示Q查询、K键、V值，属于输入矩阵，在LDM中分别来自潜在表示和条件编码。
$W$ ：表示可学习的投影矩阵，用于将输入映射到查询、键、值空间。
$\phi_i$ ：表示去噪网络UNet在第i层的中间特征。
$\tau_{\theta}$ ：表示条件编码器，负责将条件 $y$ 映射为嵌入向量，比如CLIP或BERT等。
$z_t$ ：表示潜在变量 $z$ 经过时间步t后得到的加噪图像，而 $z$ 是编码器对真实图像数据 $x$ 处理后得到的输出。
$y$ ：表示有条件输入，主要是以语义图、文本、表征、图像等形式数据作为输入。
在去噪过程中，U-Net的每个空间位置Q根据与文本条件KV的相似度，自适应地加权融合文本信息,这使模型能生成与条件一致的高质量图像。

四、DiT模型

Scalable Diffusion Models with Transformers论文地址

1、Latent Diffusion Transformer

在这里插入图片描述

$Noised\ Latent$ ：表示带有不同程度噪声的潜在表示张量，将原始图片通过编码器压缩到潜在空间，然后按照时间步逐步加噪。其中潜在表示张量大小为宽高为32，通道深度为4。

$P a t c hi f y$ ：表示切割分块与位置编码操作，将二维的潜在表示张量数据切割成一系列小的数据块，并注入位置信息，告诉它每个图像块在原始图像中的坐标位置。最终将每个块展平成一个向量输入给后续的Transformer块。

$Label\ y$ ：表示语义图、文本、表征、图像等形式的外部输入条件。

$Timestep\ t$ ：表示一个时间步标量，指明当前在扩散过程中所处的阶段与加噪情况。模型需要知道时间步来相应地执行去噪操作。

$E mb e d$ ：表示条件编码器，目的是将条件信息和时间步信息编码成一个向量表示。

$DiT\ Block$ ：表示一个特殊的Transformer块，根据扩散模型的需求对Transformer做了特殊设计，能够融入潜在表示向量和条件表示向量以及时间步信息。

$Layer\ Norm$ ：表示层归一化，NLP领域常用的归一化技术，主要对训练数据进行标准化，稳定训练过程。

$Linear\ and\ Reshape$ ：表示全连接层和矩阵转换操作，Linear操作是将每个图像块向量投影到一个更高维的特征空间中。Reshape操作是将处理完的所有数据按照矩阵的形状维度重新拼接起来。

$N o i se$ ：表示模型预测的潜在表示张量 $z_{t}$ 到潜在表示张量 $z_{t-1}$ 时应该要被去除的噪声。

$\Sigma$ ：表示扩散模型前向过程的数学公式。

2、DiT Block

在这里插入图片描述

$T$ ：表示Token数量。

$d$ ：表示每个Token的维度。

$I$ ：表示原始噪声潜变量特征图的高度与宽度。

$p$ ：表示Patchify操作切分的每个Patch的高度与宽度。

$C$ ：表示原始噪声潜变量特征图的通道数。

通过Patchify操作将扩散模型的噪声潜变量特征图Noised Latent切分出T个Patch，然后转化为适合Transformer处理的Input Tokens序列，从而利用强大的 Transformer 架构来执行去噪任务。

3、DiT Block with adaLN-Zero

在这里插入图片描述

$I n p u tT o k e n s$ ：表示被切分的潜在表示数据块，原始图像经过 $Noised\ Latent$ 和 $P a t c hi f y$ 处理后，被线性投影为一个Token，这些Token包含了被噪声破坏后的图像信息。

$Layer\ Norm$ ：表示层归一化，NLP领域常用的归一化技术，主要对训练数据进行标准化，稳定训练过程。

$C o n d i t i o nin g$ ：表示包含条件信息和时间步信息的向量数据，主要通过 $Label\ y$ 、 $Timestep\ t$ 和 $E mb e d$ 操作把条件信息和时间步信息编码成了一个向量表示。

$M L P$ ：表示多层感知机，将带有条件信息和如时间步信息的条件向量编码映射成一组自适应参数。

$S c a l e, S hi f t$ ：表示缩放与平移操作，公式为 $输出 = 输入 * γ + β$ ，也称为仿射变换，是深度学习中最基本的操作之一。

$γ, β, α$ ：表示根据不同的条件动态生成的 $γ$ 缩放因子、 $β$ 平移因子和 $α$ 残差权重，是由Conditioning和MLP计算得到的。其中 $γ_1, β_1$ 被用于第一个Layer Norm之后，用于调节进入多头自注意力模块的数据。 $γ_2, β_2$ 被用于第二个Layer Norm之后，用于调节进入前馈网络模块的数据。 $α_1, α_2$ 在主路径中自注意力和前馈网络的输出与残差输入进行相加之前，对主路径的输出进行缩放。

$M u lt i - He a d S e l f - A tt e n t i o n$ ：表示常规多头注意力机制。

$Pointwise\ Feedforward$ ：表示一个复杂非线性特征变换的模块，通常由一个简单的两层全连接网络构成，目的是对每个已经包含全局上下文信息的Token进行更深层次、更复杂的非线性特征变换。

$a d a L N - Z ero$ ：是一种极其高效且稳定的条件注入机制，一方面将条件信息通过MLP映射得到 $γ, β, α$ 自适应参数，并使用缩放平移操作在注意力层和前馈层之前进行归一化操作，实现自适应归一化。另一方面将参数 $α_{1}, α_{2}$ 初始化为 0。同时，也会将 $γ_{1}, γ_{2}$ 初始化为接近0的值，使得模型可以学习在每个模块中如何按照条件信息进行更新，应该多大程度上依赖新计算的结果以及保留之前的信息。

优点：
高效简洁：计算开销最小。只需要在块开始时从条件向量预测一组参数，之后的前向传播与标准Transformer块无异，没有引入额外的矩阵运算。
训练稳定： “Zero”初始化策略非常有效，能让模型平稳地从简单任务开始学习，避免了训练初期梯度爆炸或不稳定的问题。这是它性能强大的关键原因。
概念优雅：将条件信息作为一种“调制”或“风格”信号，直接影响特征的均值和方差，与扩散模型生成时逐步“塑造”图像特征的过程非常契合。

缺点：
表达能力可能受限：条件信息的影响是“间接”和“全局”的。它一次性调制了整个特征块，可能无法像Cross-Attention那样实现精细的、基于每个图像块（patch）和每个词汇（token）之间的交互。
灵活性较低：对于需要非常精确的、细粒度的条件控制（例如，根据复杂的文本描述精确摆放物体位置），adaLN-Zero可能不如Cross-Attention直接。

4、DiT Block with Cross-Attention

DiT Block with Cross-Attention在Transformer块的自注意力（Self-Attention）层之后，插入一个交叉注意力（Cross-Attention）层。
Query（Q）：来自图像的特征块（patches）。
Key（K）和 Value（V）：来自条件信息（如文本编码器的文本特征序列）。
通过计算Q和K的相似度，模型可以学会“关注”文本描述中与当前图像块最相关的部分，并用对应的V来更新图像特征。

优点：
强大的对齐能力：这是其最核心的优势。它能够建立图像区域和文本词汇之间的显式、细粒度的关联。这对于实现“构图正确”的生成至关重要（例如，确保“一只戴帽子的猫”中的帽子在猫的头上，而不是其他地方）。
灵活性高：天然适合处理序列形式的条件输入（如句子），可以捕捉条件中的复杂结构和依赖关系。

缺点：
计算开销大：引入额外的注意力层会显著增加计算量和内存占用，尤其是当文本序列较长或图像分辨率很高时。
训练可能更困难：需要学习两种不同的注意力机制（自注意力和交叉注意力），训练动态可能更复杂，有时需要更仔细的超参调优。

5、DiT Block with In-Context Conditioning

DiT Block with In-Context Conditioning不修改Transformer块的内在结构。相反，它将条件信息（如文本token）和图像信息（图像patch token）直接拼接在一起，形成一个更长的序列。
然后，将这个混合序列输入给一个标准的、只有自注意力（Self-Attention）的Transformer块。
自注意力机制会自行学习图像块之间、文本token之间以及图像块与文本token之间的关系。

优点：
架构统一简洁：无需为条件化设计特殊模块（如adaLN的预测网络或交叉注意力层）。模型就是一个标准的、仅有自注意力的Decoder-Only Transformer，简化了代码和系统设计。
潜力巨大：这种方式让DiT更像一个“通用序列模型”，为多模态统一提供了可能。例如，可以很容易地将图像、文本、音频等不同模态的token一起输入模型进行训练，模型会自己学习它们之间的关联。这是通往“世界模型”的一种路径。
可扩展性：受益于LLM领域在长序列处理上的持续进步。

缺点：
序列长度激增：拼接会导致输入序列非常长（图像patch数量 + 文本token数量），而自注意力的计算复杂度是序列长度的平方（O(n²)），这在计算上是非常昂贵的，限制了其处理高分辨率图像的能力。
需要大量数据：为了让模型有效地从这种“混杂”的输入中学习到正确的模态间交互关系，通常需要极其大规模的多模态数据进行预训练。
可能效率不高：模型需要为每个样本都处理完整的混合序列，而adaLN-Zero和Cross-Attention中的条件信息（如文本嵌入）通常可以被预处理或共享，计算效率可能更高。