扩散模型(Diffusion Model)数学推导（含详细注解）

清亮兄

已于 2025-05-29 19:58:21 修改

阅读量868

点赞数 21

CC 4.0 BY-SA版权

文章标签：机器学习

于 2025-05-29 19:42:02 首次发布

本文链接：https://blog.youkuaiyun.com/LQL_01/article/details/148316606

扩散模型(Diffusion Model)数学推导

1. 基本概念

扩散模型是一种基于马尔可夫链的生成模型，包含两个核心过程：

1.1 扩散过程（前向过程）

逐步向数据添加高斯噪声，将数据分布转化为标准正态分布：

$q(x_{1:T}|x_0) = \prod_{t=1}^T q(x_t|x_{t-1})$

1.2 逆扩散过程（反向过程）

学习从噪声中重建原始数据：

$p_\theta(x_{0:T}) = p(x_T)\prod_{t=1}^T p_\theta(x_{t-1}|x_t)$

2. 前向过程详细推导

2.1 单步扩散

每一步的扩散过程定义为：

$q(x_t|x_{t-1}) = \mathcal{N}(x_t; \sqrt{1-\beta_t}x_{t-1}, \beta_t \boldsymbol{I})$

使用重参数化技巧表示为：

$x_t = \sqrt{\alpha_t}x_{t-1} + \sqrt{1-\alpha_t}\epsilon_{t-1}, \quad \alpha_t = 1-\beta_t$

2.2 任意时刻表示

通过递归展开可得：

$x_t = \sqrt{\bar{\alpha}_t}x_0 + \sqrt{1-\bar{\alpha}_t}\epsilon$

其中： $\bar{\alpha}_t = \prod_{i=1}^t \alpha_i$ , $\epsilon \sim \mathcal{N}(0, \boldsymbol{I})$ 。

递归推导：
$\begin{aligned} {x}_t & =\sqrt{\alpha_t} {x}_{t-1}+\sqrt{1-\alpha_t} {\epsilon}_{t-1} \\ & =\sqrt{\alpha_t}\left(\sqrt{\alpha_{t-1}} x_{t-2}+\sqrt{1-\alpha_{t-1}} \epsilon_{t-2}\right)+\sqrt{1-\alpha_t} \epsilon_{t-1} \\ & =\sqrt{\alpha_t \alpha_{t-1}} x_{t-2}+\sqrt{\alpha_t\left(1-\alpha_{t-1}\right)} \epsilon_{t-2}+\sqrt{1-\alpha_t} \epsilon_{t-1} \\ & =\sqrt{\alpha_t \alpha_{t-1}} x_{t-2}+ \textcolor{blue}{\sqrt{1-\alpha_{t-1} \alpha_t} \bar{\epsilon}_{t-2}} \\ & \cdots \\ & =\sqrt{\bar{\alpha}_t} {x}_0+\sqrt{1-\bar{\alpha}_t} {\epsilon} \end{aligned}$
注解： $\epsilon_{t-1}$ 和 $\epsilon_{t-2}$ 是相互独立的高斯分布，因此可以合成一个新的高斯分布 $\bar{\epsilon}_{t-2}$ ，标准差为 $\sqrt{1-\alpha_{t-1} \alpha_t}$ 。参考公式：给定两个独立的正态分布 $X_1 \sim N\left(\mu_1, \sigma_1^2\right)$ 和 $X_2 \sim N\left(\mu_2, \sigma_2^2\right)$ ，且 $ab$ 均为实数则
${aX_1}+{bX_2} \sim N\left({a} \mu_1+b \mu_2, {a}^2 \sigma_1^2+b^2 \sigma_2^2\right)$

2.3 性质分析

当 $\to \infty$ 时： $\bar{\alpha}_t \to 0$ $\Rightarrow$ $x_T \to \mathcal{N}(0, \boldsymbol{I})$ 。

3. 反向过程推导

如果我们能够逆转上述过程并从 $q\left(x_{t-1} \mid x_t\right)$ 采样，就可以从高斯噪声 $x_T \sim \mathcal{N}(0, \boldsymbol{I})$ 还原出原图分布 $x_0 \sim q(x)$ 。因为我们无法直接推断出 $q\left(x_{t-1} \mid x_t\right)$ ，所以通过神经网络去预测/拟合这样的一个逆向的分布 $p_\theta\left(x_{t-1} \mid x_t\right)$ 。

3.1 真实反向分布结论

当已知 $x_0$ 时，反向分布可解析求得：

$q(x_{t-1}|x_t,x_0) = \mathcal{N}(x_{t-1}; \tilde{\mu}_t, \tilde{\beta}_t \boldsymbol{I})$

其中： $\tilde{\mu}_t = \frac{1}{\sqrt{\alpha_t}}\left(x_t - \frac{1-\alpha_t}{\sqrt{1-\bar{\alpha}_t}}\epsilon_t\right)$ ， $\tilde{\beta}_t=\frac{1-\bar{\alpha}_{t-1}}{1-\bar{\alpha}_t} \cdot \beta_t$

3.2 推导

$\begin{aligned} & q\left(x_{t-1} \mid x_t, x_0\right) =\frac{q\left(x_t, x_0, x_{t-1}\right)}{q\left(x_t, x_0\right)} =\frac{q\left(x_0\right) q\left(x_{t-1} \mid x_0\right) q\left(x_t \mid x_{t-1}, x_0\right)}{q\left(x_0\right) q\left(x_t \mid x_0\right)} \\ & =q\left(x_t \mid x_{t-1}, x_0\right) \frac{q\left(x_{t-1} \mid x_0\right)}{q\left(x_t \mid x_0\right)} = q\left(x_t \mid x_{t-1}\right) \frac{q\left(x_{t-1} \mid x_0\right)}{q\left(x_t \mid x_0\right)} \\ & \propto \exp \left(-\frac{1}{2}\left(\frac{\left(x_t-\sqrt{\alpha_t} x_{t-1}\right)^2}{\beta_t}+\frac{\left(x_{t-1}-\sqrt{\bar{\alpha}_{t-1}} x_0\right)^2}{1-\bar{a}_{t-1}}-\frac{\left(x_t-\sqrt{\bar{a}_t} x_0\right)^2}{1-\bar{a}_t}\right)\right) \\ & =\exp (-\frac{1}{2}(\underbrace{\left(\left(\frac{\alpha_t}{\beta_t}+\frac{1}{1-\bar{\alpha}_{t-1}}\right) x_{t-1}^2\right.}_{x_{t-1} \text { 万差 }}-\underbrace{\left(\frac{2 \sqrt{\alpha_t}}{\beta_t} x_t+\frac{2 \sqrt{\bar{a}_{t-1}}}{1-\bar{\alpha}_{t-1}} x_0\right) x_{t-1}}_{x_{t-1} \text { 均值 }}+\underbrace{C\left(x_t, x_0\right)}_{\text {与 } x_{t-1} \text { 无关 }}) . \end{aligned}$
注解： 推导过程用到了贝叶斯公式，马尔科夫性，以及高斯公式
贝叶斯公式： $\frac{P(B|A)P(A)}{P(B)}$ ;
因为扩散过程是一个马尔科夫过程，所以有 $q\left(x_t \mid x_{t-1}, x_0\right) = q\left(x_t \mid x_{t-1}\right)$ ;
将条件概率转化为概率密度的表达形式，它们是成正相关或认为成正比关系的。高斯分布 $\sim N \left(\mu,\sigma^2\right)$ 的概率密度函数为：
$f(x)=\frac{1}{\sqrt{2 \pi} \sigma} \exp \left(\frac{-(x-\mu)^2}{2 \sigma^2}\right)$

根据上述公式，进一步可以获得方差和均值：
方差：（观察可知方差为常数值）
$\tilde{\beta}_t=1 /\left(\frac{\alpha_t}{\beta_t}\right. \left.+\frac{1}{1-\bar{\alpha}_{t-1}}\right)=1 /\left(\frac{\alpha_t-\bar{\alpha}_t+\beta_t}{\beta_t\left(1-\bar{\alpha}_{t-1}\right)}\right)=\frac{1-\bar{\alpha}_{t-1}}{1-\bar{\alpha}_t} \cdot \beta_t$
均值：
$\begin{aligned} \tilde{{\mu}}_t\left({x}_t, {x}_0\right) & =\left(\frac{\sqrt{\alpha_t}}{\beta_t} {x}_t+\frac{\sqrt{\bar{\alpha}_{t-1}}}{1-\bar{\alpha}_{t-1}} {x}_0\right) /\left(\frac{\alpha_t}{\beta_t}+\frac{1}{1-\bar{\alpha}_{t-1}}\right) \\ & =\left(\frac{\sqrt{\alpha_t}}{\beta_t} {x}_t+\frac{\sqrt{\bar{\alpha}_{t-1}}}{1-\bar{\alpha}_{t-1}} {x}_0\right) \frac{1-\bar{\alpha}_{t-1}}{1-\bar{\alpha}_t} \cdot \beta_t \\ & =\frac{\sqrt{\alpha_t}\left(1-\bar{\alpha}_{t-1}\right)}{1-\bar{\alpha}_t} {x}_t+\frac{\sqrt{\bar{\alpha}_{t-1}} \beta_t}{1-\bar{\alpha}_t} {x}_0 \end{aligned}$

将 $x_0$ 表示为： $x_0 = \frac{1}{\sqrt{\bar{\alpha}_t}}(x_t - \sqrt{1-\bar{\alpha}_t}\epsilon_t)$ ，代入上式得：
$\begin{aligned} \tilde{\mu}_t\left( {x}_t, {x}_0\right) & =\frac{\sqrt{\alpha_t}\left(1-\bar{\alpha}_{t-1}\right)}{1-\bar{\alpha}_t} {x}_t+\frac{\sqrt{\bar{\alpha}_{t-1}} \beta_t}{1-\bar{\alpha}_t} {x}_0 \\ & =\frac{\sqrt{\alpha_t}\left(1-\bar{\alpha}_{t-1}\right)}{1-\bar{\alpha}_t} {x}_t+\frac{\sqrt{\bar{\alpha}_{t-1}} \beta_t}{1-\bar{\alpha}_t} \cdot \frac{1}{\sqrt{\bar{\alpha}_t}}\left( {x}_t-\sqrt{1-\bar{\alpha}_t} z_t\right) \\ & =\frac{\sqrt{\alpha_t} \cdot \sqrt{\alpha_t}\left(1-\bar{\alpha}_{t-1}\right)}{\sqrt{\alpha_t} \cdot\left(1-\bar{\alpha}_t\right)} {x}_t+\frac{\sqrt{\bar{\alpha}_{t-1}} \beta_t}{1-\bar{\alpha}_t} \cdot \frac{1}{\sqrt{\bar{\alpha}_t}}\left(x_t-\sqrt{1-\bar{\alpha}_t} z_t\right) \\ & =\frac{\alpha_t-\bar{\alpha}_t}{\sqrt{\alpha_t}\left(1-\bar{\alpha}_t\right)} {x}_t+\frac{\beta_t}{\left(1-\bar{\alpha}_t\right) \sqrt{\alpha_t}}\left(x_t-\sqrt{1-\bar{\alpha}_t} z_t\right) \\ & =\frac{1-\bar{\alpha}_t}{\sqrt{\alpha_t}\left(1-\bar{\alpha}_t\right)} {x}_t-\frac{\beta_t}{\left(1-\bar{\alpha}_t\right) \sqrt{\alpha_t}}\left(\sqrt{1-\bar{\alpha}_t} z_t\right) \\ & =\frac{1}{\sqrt{\alpha_t}} {x}_t-\frac{\beta_t}{\sqrt{\left(1-\bar{\alpha}_t\right)} \sqrt{\alpha_t}} z_t \\ & =\frac{1}{\sqrt{\alpha_t}}\left( {x}_t-\frac{\beta_t}{\sqrt{\left(1-\bar{\alpha}_t\right)}} z_t\right) \end{aligned}$
其中 $\beta_t=1-\alpha_t$ ，则最终结果为：
$\tilde{\mu}_t = \frac{1}{\sqrt{\alpha_t}}\left(x_t - \frac{1-\alpha_t}{\sqrt{1-\bar{\alpha}_t}}\epsilon_t\right)$

4. 训练目标

为什么预测噪声而不是直接预测图像？1

简化建模问题
不同时间步共享相同的噪声预测目标。考虑到我们每次只需要预测一个特定的时间步（t）的噪声，网络的目标变得更加明确且简单。直接预测图像 x_0 的像素值，则意味着模型需要从噪声中恢复整个图像结构，这在高维空间中是一个非常复杂的问题。

更进一步，预测噪声本质上是一个去噪过程，这个过程相对更加容易拟合和收敛。

稳定性和收敛性
在扩散模型中，噪声是添加到每个像素上的随机扰动。通过学习从噪声中恢复出原始图像的噪声成分，网络本质上是在学习图像的细节，而不是整个图像结构。因此，通过减少噪声的预测误差，模型能够更加稳定地训练。

1: 第 4 期：DDPM中的损失函数——为什么只预测噪声？原文链接：https://blog.youkuaiyun.com/m0_45101613/article/details/147340147

4.1 变分下界

似然函数 $p_\theta\left(x_0\right)$ 表示在模型参数 $\theta$ 下，观测数据 $x_0$ 出现的概率。最大化似然即：

$\max _\theta \log p_\theta\left(x_0\right)$

等价于让模型生成的数据分布 $p_\theta$ 尽可能接近真实数据分布 $q\left(x_0\right)$ 。

由于似然函数求积分通常无法直接计算，因此我们通过变分下界（ELBO）来近似：
$\begin{aligned} \log p(\boldsymbol{x}) & =\log \int p\left(\boldsymbol{x}_{0: T}\right) d \boldsymbol{x}_{1: T} \\ & =\log \int \frac{p\left(\boldsymbol{x}_{0: T}\right) q\left(\boldsymbol{x}_{1: T} \mid \boldsymbol{x}_0\right)}{q\left(\boldsymbol{x}_{1: T} \mid \boldsymbol{x}_0\right)} d \boldsymbol{x}_{1: T} \\ & =\log \mathbb{E}_{q\left(\boldsymbol{x}_{1: T} \mid \boldsymbol{x}_0\right)}\left[\frac{p\left(\boldsymbol{x}_{0: T}\right)}{q\left(\boldsymbol{x}_{1: T} \mid \boldsymbol{x}_0\right)}\right] \\ & \geq \mathbb{E}_{q\left(\boldsymbol{x}_{1: T} \mid \boldsymbol{x}_0\right)}\left[\log \frac{p\left(\boldsymbol{x}_{0: T}\right)}{q\left(\boldsymbol{x}_{1: T} \mid \boldsymbol{x}_0\right)}\right] \end{aligned}$
注解： 上式中不等式，由琴生不等式得到。琴生不等式：对于凹函数（Concave Function） ϕ 和随机变量 X，有(E[X])≥E[ϕ(X)]。对数函数 log(⋅) 是凹函数（其二阶导数为负）。

$\begin{aligned} & \mathbb{E}_{q\left(\boldsymbol{x}_{1: T} \mid \boldsymbol{x}_0\right)}\left[\log \frac{p\left(\boldsymbol{x}_{0: T}\right)}{q\left(\boldsymbol{x}_{1: T} \mid \boldsymbol{x}_0\right)}\right] \\ & =\mathbb{E}_{q\left(\boldsymbol{x}_{1: T} \mid \boldsymbol{x}_0\right)}\left[\log \frac{p\left(\boldsymbol{x}_T\right) \prod_{t=1}^T p_{\boldsymbol{\theta}}\left(\boldsymbol{x}_{t-1} \mid \boldsymbol{x}_t\right)}{\prod_{t=1}^T q\left(\boldsymbol{x}_t \mid \boldsymbol{x}_{t-1}\right)}\right] \\ & =\mathbb{E}_{q\left(\boldsymbol{x}_{1: T} \mid \boldsymbol{x}_0\right)}\left[\log \frac{p\left(\boldsymbol{x}_T\right) p_{\boldsymbol{\theta}}\left(\boldsymbol{x}_0 \mid \boldsymbol{x}_1\right) \prod_{t=2}^T p_{\boldsymbol{\theta}}\left(\boldsymbol{x}_{t-1} \mid \boldsymbol{x}_t\right)}{q\left(\boldsymbol{x}_T \mid \boldsymbol{x}_{T-1}\right) \prod_{t=1}^{T-1} q\left(\boldsymbol{x}_t \mid \boldsymbol{x}_{t-1}\right)}\right] \\ & =\mathbb{E}_{q\left(\boldsymbol{x}_{1: T} \mid \boldsymbol{x}_0\right)}\left[\log \frac{p\left(\boldsymbol{x}_T\right) p_{\boldsymbol{\theta}}\left(\boldsymbol{x}_0 \mid \boldsymbol{x}_1\right) \prod_{t=1}^{T-1} p_{\boldsymbol{\theta}}\left(\boldsymbol{x}_t \mid \boldsymbol{x}_{t+1}\right)}{q\left(\boldsymbol{x}_T \mid \boldsymbol{x}_{T-1}\right) \prod_{t=1}^{T-1} q\left(\boldsymbol{x}_t \mid \boldsymbol{x}_{t-1}\right)}\right] \\ & =\mathbb{E}_{q\left(\boldsymbol{x}_{1: T} \mid \boldsymbol{x}_0\right)}\left[\log \frac{p\left(\boldsymbol{x}_T\right) p_{\boldsymbol{\theta}}\left(\boldsymbol{x}_0 \mid \boldsymbol{x}_1\right)}{q\left(\boldsymbol{x}_T \mid \boldsymbol{x}_{T-1}\right)}\right]+\mathbb{E}_{q\left(\boldsymbol{x}_{1: T} \mid \boldsymbol{x}_0\right)}\left[\log \prod_{t=1}^{T-1} \frac{p_{\boldsymbol{\theta}}\left(\boldsymbol{x}_t \mid \boldsymbol{x}_{t+1}\right)}{q\left(\boldsymbol{x}_t \mid \boldsymbol{x}_{t-1}\right)}\right] \\ & =\mathbb{E}_{q\left(\boldsymbol{x}_{1: T} \mid \boldsymbol{x}_0\right)}\left[\log p_{\boldsymbol{\theta}}\left(\boldsymbol{x}_0 \mid \boldsymbol{x}_1\right)\right]+\mathbb{E}_{q\left(\boldsymbol{x}_{1: T} \mid \boldsymbol{x}_0\right)}\left[\log \frac{p\left(\boldsymbol{x}_T\right)}{q\left(\boldsymbol{x}_T \mid \boldsymbol{x}_{T-1}\right)}\right]+\mathbb{E}_{q\left(\boldsymbol{x}_{1: T} \mid \boldsymbol{x}_0\right)}\left[\sum_{t=1}^{T-1} \log \frac{p_{\boldsymbol{\theta}}\left(\boldsymbol{x}_t \mid \boldsymbol{x}_{t+1}\right)}{q\left(\boldsymbol{x}_t \mid \boldsymbol{x}_{t-1}\right)}\right] \\ & =\mathbb{E}_{q\left(\boldsymbol{x}_{1: T} \mid \boldsymbol{x}_0\right)}\left[\log p_{\boldsymbol{\theta}}\left(\boldsymbol{x}_0 \mid \boldsymbol{x}_1\right)\right]+\mathbb{E}_{q\left(\boldsymbol{x}_{1: T} \mid \boldsymbol{x}_0\right)}\left[\log \frac{p\left(\boldsymbol{x}_T\right)}{q\left(\boldsymbol{x}_T \mid \boldsymbol{x}_{T-1}\right)}\right]+\sum_{t=1}^{T-1} \mathbb{E}_{q\left(\boldsymbol{x}_{1: T} \mid \boldsymbol{x}_0\right)}\left[\log \frac{p_{\boldsymbol{\theta}}\left(\boldsymbol{x}_t \mid \boldsymbol{x}_{t+1}\right)}{q\left(\boldsymbol{x}_t \mid \boldsymbol{x}_{t-1}\right)}\right] \\ & =\mathbb{E}_{q\left(\boldsymbol{x}_1 \mid \boldsymbol{x}_0\right)}\left[\log p_{\boldsymbol{\theta}}\left(\boldsymbol{x}_0 \mid \boldsymbol{x}_1\right)\right]+\mathbb{E}_{q\left(\boldsymbol{x}_{T-1}, \boldsymbol{x}_T \mid \boldsymbol{x}_0\right)}\left[\log \frac{p\left(\boldsymbol{x}_T\right)}{q\left(\boldsymbol{x}_T \mid \boldsymbol{x}_{T-1}\right)}\right]+\sum_{t=1}^{T-1} \mathbb{E}_{q\left(\boldsymbol{x}_{t-1}, \boldsymbol{x}_t, \boldsymbol{x}_{t+1} \mid \boldsymbol{x}_0\right)}\left[\log \frac{p_{\boldsymbol{\theta}}\left(\boldsymbol{x}_t \mid \boldsymbol{x}_{t+1}\right)}{q\left(\boldsymbol{x}_t \mid \boldsymbol{x}_{t-1}\right)}\right] \\ & =\underbrace{\mathbb{E}_{q\left(\boldsymbol{x}_1 \mid \boldsymbol{x}_0\right)}\left[\log p_\theta\left(\boldsymbol{x}_0 \mid \boldsymbol{x}_1\right)\right]}_{\text {L0 reconstruction term }} -\underbrace{\mathbb{E}_{q\left(\boldsymbol{x}_{T-1} \mid \boldsymbol{x}_0\right)}\left[D_{ \boldsymbol{KL}}\left(q\left(\boldsymbol{x}_T \mid \boldsymbol{x}_{T-1}\right) \| p\left(\boldsymbol{x}_T\right)\right)\right]}_{\text {LT prior matching term }} \\ & -\sum_{t=1}^{T-1} \underbrace{\mathbb{E}_{q\left(\boldsymbol{x}_{t-1}, \boldsymbol{x}_{t+1} \mid \boldsymbol{x}_0\right)}\left[D_{ \boldsymbol{KL}}\left(q\left(\boldsymbol{x}_t \mid \boldsymbol{x}_{t-1}\right) \| p_\theta\left(\boldsymbol{x}_t \mid \boldsymbol{x}_{t+1}\right)\right)\right]}_{\text {Lt consistency term }} \end{aligned}$
展开后包含三项：

$L_T$ : 先验匹配项。作用：约束最终噪声分布接近标准正态。当 $T$ 足够大时， $q\left(\boldsymbol{x}_{T} \mid \boldsymbol{x}_0\right)$ 已是标准正态，此项可忽略。
$L_{t}$ : 去噪匹配项（核心项）。真实分布与模型分布的KL散度。
$L_0$ : 重构项。通常用离散化后的高斯分布或固定方差处理。

优化目标为：

$\mathcal{L}_{\text{VLB}} = \mathbb{E}_q\left[-\log\frac{p_\theta(x_{0:T})}{q(x_{1:T}|x_0)}\right]$
$\begin{aligned} L_t & =\mathbb{E}_{ \boldsymbol{x}_0, \epsilon} \left[\frac{1}{2\left\|\boldsymbol{\Sigma}_\theta\left( \boldsymbol{x}_t, t\right)\right\|_2^2}\left\| \mu_\theta\left( \boldsymbol{x}_t, t\right)\right\|^2\right] \\ & =\mathbb{E}_{ \boldsymbol{x}_0, \epsilon}\left[\frac{1}{2\left\|\boldsymbol{\Sigma}_\theta\right\|_2^2}\left\| \frac{1}{\sqrt{\alpha_t}}\left( \boldsymbol{x}_t-\frac{1-\alpha_t}{\sqrt{1-\bar{\alpha}_t}} \epsilon_\theta\left( \boldsymbol{x}_t, t\right)\right)\right\|^2\right] \\ & =\mathbb{E}_{ \boldsymbol{x}_0, \epsilon}\left[\frac{\left(1-\alpha_t\right)^2}{2 \alpha_t\left(1-\bar{\alpha}_t\right)\left\|\boldsymbol{\Sigma}_\theta\right\|_2^2}\left\|\boldsymbol{\epsilon}_t-\boldsymbol{\epsilon}_\theta\left( \boldsymbol{x}_t, t\right)\right\|^2\right] \\ & =\mathbb{E}_{ \boldsymbol{x}_0, \epsilon}\left[\frac{\left(1-\boldsymbol{\alpha}_t\right)^2}{2 \alpha_t\left(1-\bar{\alpha}_t\right)\left\|\boldsymbol{\Sigma}_\theta\right\|_2^2}\left\|\boldsymbol{\epsilon}_t-\boldsymbol{\epsilon}_\theta\left(\sqrt{\bar{\alpha}_t} \boldsymbol{x}_0+\sqrt{1-\bar{\alpha}_t} \boldsymbol{\epsilon}_t, t\right)\right\|^2\right] \end{aligned}$
其中 $\begin{aligned} \boldsymbol{\mu}_\theta\left( \boldsymbol{x}_t, t\right) =\frac{1}{\sqrt{\alpha_t}}\left( \boldsymbol{x}_t-\frac{1-\alpha_t}{\sqrt{1-\bar{\alpha}_t}} \boldsymbol{\epsilon}_\theta\left( \boldsymbol{x}_t, t\right)\right) \\ \end{aligned}$ ，
$\boldsymbol{x}_{t-1} =\mathcal{N}\left( \boldsymbol{x}_{t-1} ; \frac{1}{\sqrt{\alpha_t}}\left( \boldsymbol{x}_t-\frac{1-\alpha_t}{\sqrt{1-\bar{\alpha}_t}} \boldsymbol{\epsilon}_\theta\left( \boldsymbol{x}_t, t\right)\right), \boldsymbol{\Sigma}_\theta\left( \boldsymbol{x}_t, t\right)\right)$

实际使用简化形式：

$\begin{aligned} \mathcal{L}_{\text{simple}} &= \mathbb{E}_{t,x_0,\epsilon}\left[\|\epsilon - \epsilon_\theta(x_t,t)\|^2\right] \\ &=\mathbb{E}_{t \sim[1, T], \boldsymbol{x}_{0, \epsilon_t}}\left[\left\|\epsilon_t-\epsilon_\theta\left(\sqrt{\bar{\alpha}_t} \boldsymbol{x}_0+\sqrt{1-\bar{\alpha}_t} \epsilon_t, t\right)\right\|^2\right] \end{aligned}$

5. 采样算法

在这里插入图片描述

从 $x_T \sim \mathcal{N}(0, \boldsymbol{I})$ 开始
对于 $t = T, ..., 1$ :
- 预测噪声 $\epsilon_\theta(x_t,t)$
- 计算均值 $\mu_\theta(x_t,t)$
- 采样 $x_{t-1} \sim \mathcal{N}(\mu_\theta,\sigma_t^2 \boldsymbol{I})$
输出 $x_0$

6. 实现细节

超参数	典型值	说明
T	1000	总步数
$\beta_{\text{min}}$	1e-4	起始噪声
$\beta_{\text{max}}$	0.02	最终噪声
网络架构	U-Net	带时间嵌入

7. 核心公式总结

前向过程：
$x_t = \sqrt{\bar{\alpha}_t}x_0 + \sqrt{1-\bar{\alpha}_t}\epsilon$
反向均值：
$\tilde{\mu}_t = \frac{1}{\sqrt{\alpha_t}}\left(x_t - \frac{\beta_t}{\sqrt{1-\bar{\alpha}_t}}\epsilon_\theta\right)$
训练目标：
$\min_\theta \|\epsilon - \epsilon_\theta(x_t,t)\|^2$