DDPM模型——公式推导

CV_Peach

已于 2023-01-15 20:27:03 修改

阅读量1.9k

点赞数 5

文章标签：深度学习人工智能

于 2023-01-15 20:02:28 首次发布

本文链接：https://blog.youkuaiyun.com/Peach_____/article/details/128694125

版权

本文深入探讨了DenoisingDiffusionProbabilisticModels(DDPM)的概念，包括其PyTorch实现、联合概率、逆扩散过程的数学表达以及训练中的损失函数。DDPM是一种生成模型，通过逐步加噪和去噪过程来生成高质图像。文章还介绍了模型参数、马尔科夫链、正态分布的叠加以及KL散度在模型中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文传送门：Denoising Diffusion Probabilistic Models
代码实现：DDPM模型——pytorch实现
推荐视频：54、Probabilistic Diffusion Model概率扩散模型理论与完整PyTorch代码详细解读

需要的数学基础：

联合概率(Joint probability)：
$\mid B, A) P(B, A)=P(C \mid B, A) P(B \mid A) P(A)$
条件概率(Conditional probability)：
$\mid A)=P(B \mid A) P(C \mid A, B)$
马尔可夫链(Markov Chain)：
$p\left(X_{t+1} \mid X_{t}, \ldots, X_{1}\right)=p\left(X_{t+1} \mid X_{t}\right)$
贝叶斯公式(Bayes Rule)：
$P\left(A_{i} \mid B\right)=\frac{P\left(B \mid A_{i}\right) P\left(A_{i}\right)}{\sum_{j} P\left(B \mid A_{j}\right) P\left(A_{j}\right)}$
正态分布(Normal distribution) $\sim N\left(\mu, \sigma^{2}\right)$ 的概率密度函数：
$f(x)=\frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{(x-\mu)^{2}}{2 \sigma^{2}}}$
两个正态分布 $\sim N\left(\mu_{X}, \sigma_{X}^{2}\right)$ 和 $\sim N\left(\mu_{Y}, \sigma_{Y}^{2}\right)$ 的叠加：
$\sim N\left(\mu_{X}+\mu_{Y}, \sigma_{X}^{2}+\sigma_{Y}^{2}\right)$
两个正态分布 $p, q$ 的KL散度(Kullback-Leibler divergence)：
$q)=\log \frac{\sigma_{q}}{\sigma_{p}}+\frac{\sigma_{p}^{2}+\left(\mu_{p}-\mu_{q}\right)^{2}}{2 \sigma_{q}^{2}}-\frac{1}{2}$
重参数技巧(Reparameterrization)：
$\sim N\left(\mu, \sigma^{2}\right), Y=\frac{X-\mu}{\sigma} \sim N(0,1)$
从正态分布 $X$ 中采样 $z$ ，等价于从标准正态分布 $Y$ 中采样 $z^{'}$ ， $\mu + \sigma \times z'$
一元二次式的配方：
$x^{2}+b x=a\left(x+\frac{b}{2 a}\right)^{2}+C$

概念：

$t$ ：时刻(加噪次数)
$T$ ：总时长(总加噪次数)
$\mathbf{x}$ ：图像
$\mathbf{x}_{0}$ ：初始时刻图像
$\mathbf{x}_{t}$ ： $t$ 时刻图像
$\mathbf{x}_{T}$ ：终止时刻图像
$x_0$ ~ $q(x_0)$ ， $q(x_0)$ ：真实图像分布
$p_\theta (x_0) := \int p_\theta (x_{0:T}) d x_{1:T}$ ， $p_\theta (x_0)$ ：生成图像分布
$\theta$ ：(网络)参数
$\beta_{t}$ ：扩散过程t时刻加入噪声的方差
$\beta$ ：噪声方差序列，长度为T，在 $(0, 1)$ 区间内单调递增

Reverse process：

逆扩散过程的数学表达：
$p_{\theta}\left(\mathbf{x}_{0: T}\right):=p\left(\mathbf{x}_{T}\right) \prod_{t=1}^{T} p_{\theta}\left(\mathbf{x}_{t-1} \mid \mathbf{x}_{t}\right)$
全部时刻图像的联合概率分布 $p_{\theta}\left(\mathbf{x}_{0: T}\right)$ ，整个过程是马尔科夫链。其中，
$p\left(\mathbf{x}_{T}\right)=\mathcal{N}\left(\mathbf{x}_{T} ; \mathbf{0}, \mathbf{I}\right)$
$p\left(\mathbf{x}_{T}\right)$ 是标准正态分布， $\mathbf{x}_{T}$ 为采样值，与网络参数无关。
$t$ 时刻去噪的数学表达：
$p_{\theta}\left(\mathbf{x}_{t-1} \mid \mathbf{x}_{t}\right):=\mathcal{N}\left(\mathbf{x}_{t-1} ; \boldsymbol{\mu}_{\theta}\left(\mathbf{x}_{t}, t\right), \boldsymbol{\Sigma}_{\theta}\left(\mathbf{x}_{t}, t\right)\right)$
$\mathbf{x}_{t-1}$ 服从均值为 $\boldsymbol{\mu}_{\theta}\left(\mathbf{x}_{t}, t\right)$ ，方差为 $\boldsymbol{\Sigma}_{\theta}\left(\mathbf{x}_{t}, t\right)$ 的正态分布，作者在原文中将方差 $\boldsymbol{\Sigma}_{\theta}\left(\mathbf{x}_{t}, t\right)$ 设为 $\sigma_{t}^{2}=\tilde{\beta}_{t}=\frac{1-\bar{\alpha}_{t-1}}{1-\bar{\alpha}_{t}} \beta_{t}$ (经实验， $\sigma_{t}^{2}={\beta}_{t}$ 和 $\sigma_{t}^{2}=\tilde{\beta}_{t}$ 的结果相似)，与模型参数无关( $\tilde{\beta}_{t}$ 在后续计算中会提到)。

Forward process：

扩散过程的数学表达：
$q\left(\mathbf{x}_{1: T} \mid \mathbf{x}_{0}\right):=\prod_{t=1}^{T} q\left(\mathbf{x}_{t} \mid \mathbf{x}_{t-1}\right)$
给定初始图像 $\mathbf{x}_{0}$ ，全部时刻( $t > 0$ )的联合概率分布，整个过程是马尔科夫链。
$t$ 时刻加噪的数学表达：
$q\left(\mathbf{x}_{t} \mid \mathbf{x}_{t-1}\right):=\mathcal{N}\left(\mathbf{x}_{t} ; \sqrt{1-\beta_{t}} \mathbf{x}_{t-1}, \beta_{t} \mathbf{I}\right)$
$\mathbf{x}_{t}$ 服从均值为 $\sqrt{1-\beta_{t}} \mathbf{x}_{t-1}$ ，方差为 $\beta_{t}$ 的正态分布。
使用重参数技巧，任意时刻的图像 $\mathbf{x}_{t}$ 可以由初始时刻图像 $\mathbf{x}_{0}$ 和噪声方差序列 $\beta$ 来确定，为简化表达，定义 $\alpha_{t}:=1-\beta_{t}$ ， $\bar{\alpha}_{t}:=\prod_{s=1}^{t} \alpha_{s}$ ，则：