Diffusion中正向扩散过程(Forward Diffusion)详解

正向扩散过程是扩散模型的 “正向引擎”,其核心是通过确定性的逐步加噪,将真实数据(如图像)转化为完全随机的噪声。这一过程既有严格的数学保证(确保最终收敛到标准正态分布),又能通过直观案例理解其演化规律。以下结合数学推导与直观解释,全面解析正向扩散的机制。

一、核心目标:从数据分布到噪声分布

正向扩散的最终目标是:通过 T 步(通常取 1000 或 2000)迭代加噪,将初始真实数据 x_0(服从数据分布 p_{\text{data}}(x))逐步转化为完全服从标准正态分布\mathcal{N}(0, I))的噪声 x_T

这一过程需满足两个关键特性:

  1. 平滑性:每一步仅添加微小噪声,确保数据分布的变化连续可导,为反向去噪提供可学习的梯度;
  2. 收敛性:当 T \to \infty 时,最终状态 x_T严格收敛到标准正态分布,与原始数据的初始分布无关。
二、核心定义与参数体系

正向扩散的数学框架建立在三个核心参数和一个迭代规则上,这些定义是后续推导的基础:

  1. 噪声强度序列\{\beta_t\}_{t=1}^T其中\beta_t \in (0,1),表示第t步的噪声占比(t=1,2,...,T),通常设计为单调递增序列(如\beta_1=0.0001\beta_{1000}=0.02),确保后期加噪更强。

  2. 保真性系数\alpha_t = 1 - \beta_t 表示第t步保留的原始数据比例(\alpha_t越小,噪声影响越大)。

  3. 累积保真性系数\bar{\alpha}_t = \prod_{s=1}^t \alpha_s 是前t步保真性系数的乘积,衡量经过t步后原始数据x_0的 “残留权重”(t越大,\bar{\alpha}_t 越小)。

  4. 迭代加噪规则:第t步的含噪数据x_t由上一步x_{t-1}生成:x_t = \sqrt{\alpha_t} \cdot x_{t-1} + \sqrt{1 - \alpha_t} \cdot \epsilon_t \qquad \qquad \qquad \text{\footnotesize(1)}       

        其中\epsilon_t \sim \mathcal{N}(0, I)是独立同分布的标准正态噪声(与数据同维度,每个元素独立采样)。

三、迭代公式的展开:从x_0 到x_t 的显式表达

为理解正向扩散的累积效应,需将迭代公式(1)逐步展开,推导x_t 与初始数据x_0 、所有步噪声的关系。

1. 前几步的展开示例(直观理解)
  • t=1时:x_1 = \sqrt{\alpha_1} \cdot x_0 + \sqrt{1 - \alpha_1} \cdot \epsilon_1 \qquad \qquad \text{\footnotesize(2)} (原始数据占比高,噪声仅轻微影响,类似给清晰图像加一层薄雾)

  • t=2时,将x_1代入公式(1):\begin{aligned} x_2 &= \sqrt{\alpha_2} \cdot x_1 + \sqrt{1 - \alpha_2} \cdot \epsilon_2 \\ &= \sqrt{\alpha_2 \cdot \alpha_1} \cdot x_0 + \sqrt{\alpha_2 \cdot (1 - \alpha_1)} \cdot \epsilon_1 + \sqrt{1 - \alpha_2} \cdot \epsilon_2 \qquad \text{\footnotesize(3)} \end{aligned}(原始数据占比下降,噪声影响累积,图像雾更浓)

2. 通用公式的归纳(数学抽象)

通过观察t=1,2,3的展开式,可归纳出t步时的通用公式:x_t = \sqrt{\bar{\alpha}_t} \cdot x_0 + \sum_{s=1}^t \left( \sqrt{ \frac{\bar{\alpha}_t}{\bar{\alpha}_s} \cdot (1 - \alpha_s) } \right) \cdot \epsilon_s \qquad \qquad \qquad \text{\footnotesize(5)}

公式解读

  • 第一项\sqrt{\bar{\alpha}_t} \cdot x_0:原始数据x_0的贡献,权重为累积保真性系数的平方根;
  • 第二项:前t步噪声的加权和,每个噪声\epsilon_s 的权重随步数变化。

工程价值:无需迭代计算x_1, x_2, ..., x_{t-1},可直接从x_0 生成x_t,大幅提升训练效率。

四、极限收敛性:当T \to \infty时,x_T \sim \mathcal{N}(0, I)

正向扩散的核心结论是:当步数T趋近于无穷时,最终状态x_T严格服从标准正态分布。这一结论需通过分析公式(5)中两项的极限行为证明。

1. 原始数据项的极限:\sqrt{\bar{\alpha}_T} \cdot x_0 \to 0

累积保真性系数\bar{\alpha}_T = \prod_{s=1}^T (1 - \beta_s) 的极限行为取决于\beta_s 的求和性质:

  • 数学中,对于序列a_s \in (0,1),若\sum_{s=1}^\infty a_s = \infty,则\prod_{s=1}^T (1 - a_s) \to 0(乘积发散至 0)。
  • 扩散模型中,噪声强度序列\{\beta_t\}被设计为\sum_{s=1}^\infty \beta_s = \infty(如线性增长的\beta_t ,总和随T增大而无限增大)。

因此:\bar{\alpha}_T = \prod_{s=1}^T (1 - \beta_s) \to 0 \quad (\text{when } T \to \infty) \qquad \qquad \qquad \text{\footnotesize(6)} 

进而导致原始数据项:\sqrt{\bar{\alpha}_T} \cdot x_0 \to 0 \qquad \qquad \qquad \text{\footnotesize(7)}

直观类比:这如同 “无限次稀释墨水”,无论初始颜色多深,最终都会被清水完全冲淡,原始颜色的影响消失。

2. 噪声累积项的极限:服从\mathcal{N}(0, I)

噪声累积项是 “独立高斯变量的线性组合”,根据高斯分布的两个关键性质:

  • 可加性:独立高斯变量的线性组合仍为高斯变量;
  • 方差可加性:组合后的方差等于各变量方差与权重平方的乘积之和。

对噪声累积项的方差进行计算(记为\text{Var}(x_T^{\text{noise}})):

\text{Var}(x_T^{\text{noise}}) = \sum_{s=1}^T \left( \sqrt{ \frac{\bar{\alpha}_T}{\bar{\alpha}_s} \cdot (1 - \alpha_s) } \right)^2 = \sum_{s=1}^T \frac{\bar{\alpha}_T}{\bar{\alpha}_s} \cdot (1 - \alpha_s) \qquad \text{\footnotesize(8)}

通过代数化简(利用\bar{\alpha}_s = \bar{\alpha}_{s-1} \cdot \alpha_s 和1 - \alpha_s = \beta_s):\sum_{s=1}^T \frac{\bar{\alpha}_T}{\bar{\alpha}_s} \cdot \beta_s = 1 - \bar{\alpha}_T \qquad \qquad \text{\footnotesize(9)}(推导细节:展开乘积项后中间项全部抵消,仅剩首尾两项1和-\bar{\alpha}_T )

T \to \infty时,结合式(6)得:\text{Var}(x_T^{\text{noise}}) = 1 - \bar{\alpha}_T \to 1 \qquad \qquad \text{\footnotesize(10)}

同时,噪声累积项的均值为0(因每个\epsilon_s \sim \mathcal{N}(0, I) ,均值为 0)。因此:x_T^{\text{noise}} \to \mathcal{N}(0, I) \quad (\text{when } T \to \infty) \qquad \qquad \qquad \text{\footnotesize(11)}

3. 最终结论

结合式(7)和式(11),当T \to \infty时:x_T = \underbrace{\sqrt{\bar{\alpha}_T} \cdot x_0}_{\to 0} + \underbrace{x_T^{\text{noise}}}_{\to \mathcal{N}(0, I)} \implies x_T \sim \mathcal{N}(0, I) \qquad \qquad \qquad \text{\footnotesize(12)}

五、噪声 Schedule 的设计:平衡平滑性与收敛性

噪声强度序列\{\beta_t\}的设计直接影响正向扩散效果,需满足两个关键约束:

  1. 总噪声强度发散\sum_{t=1}^\infty \beta_t = \infty 确保 \bar{\alpha}_T \to 0 ,原始数据项完全消失。若总和有限,x_T无法完全噪声化。

  2. 单步噪声强度有界\beta_t \leq 1 - \delta\delta > 0)避免单步加噪过强(如\beta_t = 1会一步将数据变为纯噪声),确保前向过程平滑,为反向去噪提供可学习的梯度。

常见设计方案

  • 线性 Schedule\beta_t 从 0.0001 线性增长到 0.02(简单直观,早期保结构,后期加速噪声化);
  • 余弦 Schedule:基于余弦函数设计,加噪强度先缓后快,使分布更接近高斯(DDIM、Stable Diffusion 采用)。
六、直观演化过程:从 “清晰图像” 到 “随机噪声”

以图像为例,正向扩散的演化可分为三个阶段:

  1. 初始阶段(t \ll T\beta_t 极小,\bar{\alpha}_t \approx 1,原始图像结构清晰,仅轻微模糊(如照片加薄雾)。

  2. 中期阶段(t \approx T/2\bar{\alpha}_t \approx 0.1,图像细节丢失,整体朦胧,但仍能识别大致内容(如雾中看物)。

  3. 终末阶段(t \approx T\bar{\alpha}_t \approx 10^{-20},原始图像影响可忽略,视觉上表现为完全随机的 “灰色噪点”(符合标准正态分布的视觉特征)。

七、核心作用:为反向生成铺路

正向扩散的价值不仅是 “破坏数据”,更重要的是构建了从 “数据分布” 到 “噪声分布” 的连续映射,这一映射具有:

  1. 可逆性:每一步加噪都是可逆的(理论上可通过贝叶斯公式推导逆过程);
  2. 可学习性:噪声的累积规律可被神经网络捕捉,为反向去噪提供 “如何从噪声恢复数据” 的学习目标。

总结

正向扩散过程通过确定性的逐步加噪精心设计的噪声强度序列,实现了从真实数据到标准正态噪声的平滑过渡。其核心贡献是:

  1. 数学上严格证明了最终状态收敛到标准正态分布,为反向生成提供了明确起点;
  2. 直观上通过 “噪声累积、数据稀释” 的过程,使反向去噪的学习目标可感知、可优化。

理解正向扩散的数学机制与直观演化,是掌握扩散模型生成逻辑的关键基础。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

墨顿

唵嘛呢叭咪吽

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值