精读diffusion论文系列（1）——DDPM

最新推荐文章于 2025-03-18 19:26:08 发布

ucastfy

最新推荐文章于 2025-03-18 19:26:08 发布

阅读量1.2k

点赞数 30

文章标签：机器学习深度学习人工智能

本文链接：https://blog.youkuaiyun.com/Fyantu/article/details/140882225

版权

为什么要分成多步来实现功能，因为多步方便控制，方便生成指定的图像

最小化生成和编码两个概率分布的KL散度

重参数化相当于让最后的求导连接到了平均值和方差变量上，从而让随机生成的噪声作为了一个导数形式表现。而均值向量和方差向量可以由神经网络的权重表示。采样过程是无法进行可微的，但是如果重参数化后，z和均值、方差向量之间联系起来了，所以梯度可以一直反传到后面网络中对应的参数

1. Introduction

首先在Introduction部分定调了DDPM是一个使用变分推断来训练的参数化马尔科夫链，它通过有限次数的采样来生成对应的数据。本篇文章做出的贡献可以写成以下几点：

之前的论文只是定义和训练DDPM，也就是只是实操没有详细的理论论证。本文理论验证了DDPM通过去噪过程可以生成高质量的样本
理论论证了确定参数的扩散模型等效于：训练时，在多个噪声程度上使用denoising score matching算法，在采样推理时，使用朗之万动力学进行优化

关于score matching算法和朗之万动力学不是我们DDPM的重点，重点是DDPM如何理论推导出了去噪过程可以生成高质量的样本

2. background

首先我们需要梳理一些定义，diffusion model是一种隐变量模型（latent variable models）。

隐变量模型：指的是模型结果不是由观测数据决定，而是由模型中的一个隐藏变量来决定。该变量无法被直接观测出，但是却可以影响模型输出的结果。例如学校高一年级有十个班，需要对学校里的学生成绩进行采样来获得一个关于学生成绩的预测模型。如果每次采样都告诉该生的的分数，但是不告诉该生的班级（普通班和平行班的学生整体水平肯定不一样，成绩分布也不一样），那么这个班级属性就算是隐变量。

在forward process或者说diffsuion process时，输入照片数据 $x_0$ 时，我们希望通过不断添加噪声，来让照片数据最终变成一个满足标准高斯分布的噪声随机变量 $x_t$ 。在reverse process或者说推理过程中，我们可以从标准高斯分布中采样，并通过不断地去噪过程来得到一个新的数据变量 $x_0$ 。

diffusion model的

$x0 \pmb{x_0}$ ：初始输入的照片数据
$xt \pmb{x_t}$ ：服从标准标准正态分布的噪声随机量
$q(xt∣xt−1) \pmb{q(x_t|x_{t-1})}$ ：预先定义好的一个分布，可以理解为是Encoder。因为 $x_t$ 是基于 $x_{t-1}$ 得到的，所以可以写为 $q(x_t|x_{t-1}) \sim N(x_t|ax_{t-1}, b \varepsilon)$ ，其中噪声 $\varepsilon$ $\sim$ $N (0, 1)$ ， $x_{t-1}$ 也是 $t - 1$ 阶段概率分布采样出的随机变量。所以随机变量 $x_t$ 可以写成如下采样的形式：
$x_t = ax_{t-1} + b \varepsilon$
依据概率分布的加和公式：
$\sim N(\mu_1, \sigma_1), Y \sim N(\mu_2, \sigma_2)，aX+bY \sim N(a\mu_1+b\mu_2, a^2\sigma_1+b^2\sigma_2)$
为满足 $x_t$ 满足标准高斯分布，所以 $a^2+b^2 =1$ ，我们令 $\sqrt{α}$ ，则 $\sqrt{1-α}$ ，所以 $x_t$ 可以写为：
$x_{t} = \sqrt{α}x_{t-1} + \sqrt{1-α}\varepsilon$
$\pmb{p_{\theta}(x_{t-1}|x_t)}$ : 神经网络需要学习的分布，相当于decoder。其中 $\theta$ 表示神经网络的参数。由于网络由一系列中间状态的随机变量 $x_1, x_2...x_T$ 组成，所以推理过程可以写成联合概率分布的形式：

$p_\theta(\mathbf{x}_{0:T}):=p(\mathbf{x}_T)\prod_{t=1}^Tp_\theta(\mathbf{x}_{t-1}|\mathbf{x}_t),\quad p_\theta(\mathbf{x}_{t-1}|\mathbf{x}_t):=\mathcal{N}(\mathbf{x}_{t-1};\boldsymbol{\mu}_\theta(\mathbf{x}_t,t),\boldsymbol{\Sigma}_\theta(\mathbf{x}_t,t))$

其中 $p(x_T) \sim N(x_T; \pmb{0}, \pmb{I})$ 是一个标准高斯分布，中间每一步的的概率分布由网络的参数 $\theta$ 控制，他们依据步骤 $t$ 和上一状态的随机变量 $x_t$ 来确定。扩散过程则可以写成如下：

$\begin{aligned}q(\mathbf{x}_{1:T}|\mathbf{x}_0)&:=\prod_{t=1}^Tq(\mathbf{x}_t|\mathbf{x}_{t-1}),\quad&q(\mathbf{x}_t|\mathbf{x}_{t-1})&:=\mathcal{N}(\mathbf{x}_t;\sqrt{1-\beta_t}\mathbf{x}_{t-1},\beta_t\mathbf{I})\end{aligned}$