扩散模型（Diffusion Model）简介

byzy

已于 2024-03-08 15:47:27 修改

阅读量8.6k

点赞数 2

分类专栏：扩散模型与目标检测文章标签：深度学习计算机视觉

于 2023-09-25 14:46:39 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_45657478/article/details/132592446

版权

扩散模型与目标检测专栏收录该内容

9 篇文章

订阅专栏

参考：Diffusion model—扩散模型 - 优快云博客；由浅入深了解Diffusion Model - 知乎；https://arxiv.org/abs/2308.09388

1. 概述

扩散模型是一种生成模型。可用在视觉生成任务上，如图像超分辨率、去模糊、JPEG伪影移除、阴影移除、去雾/霾/雨等等。
扩散模型分为前向（扩散）过程和逆过程。前向过程逐步为图像增加逐像素噪声，直到图像满足高斯噪声；逆过程通过去噪来重建图像。
扩散模型有很多种，常见的为去噪扩散概率模型（DDPM）。

2. 前向过程

前向过程是逐步添加噪声的过程，因此其每个时刻仅与前一时刻有关。故前向过程可参数化为马尔科夫链： $q(x_t|x_{t-1})=\mathcal{N}(x_t;\sqrt{1-\beta_t}\cdot x_{t-1},\beta_tI)$ 其中 $x_0\sim p_\text{data}(x)$ 为训练数据点， $x_1,\cdots,x_T$ 为逐步添加噪声后的数据， $\beta_t$ 为预定义参数。
利用重参数技巧，由第一式可得 $x_t=\sqrt{1-\beta_t}x_{t-1}+\sqrt{\beta_t}z_t$ 。递推，并将独立的、服从标准正态分布的随机变量 $z_1,z_2,\cdots,z_t$ 合并为服从标准正态分布的随机变量 $\epsilon$ ，可得 $x_t=\sqrt{\hat{\alpha}_t}x_0+\sqrt{1-\hat{\alpha}_t}\epsilon$ 。从而可根据 $x_0$ 计算 $x_t$ 的概率分布： $q(x_t|x_0)=\mathcal{N}(x_t;\sqrt{\hat{\alpha}_t}\cdot x_0,(1-\hat{\alpha}_t)\cdot I)$ 其中 $\alpha_t=1-\beta_t,\hat{\alpha}_t=\prod_{i=1}^t\alpha_i$ 。当 $T$ 足够大时， $\hat{\alpha}_t$ 趋于0， $x_T$ 的分布就近似标准正态分布 $\pi(x_T)\sim\mathcal{N}(0,I)$ 。

3. 逆过程

逆过程通过近似后验分布来从高斯噪声中恢复数据分布： $q(x_{t-1}|x_t,x_0)=\mathcal{N}(x_{t-1};\tilde{\mu}_t(x_t,x_0),\tilde{\beta}_tI)$ 其中 $\tilde{\mu}_t(x_t,x_0)=\frac{\sqrt{\hat{\alpha}_{t-1}}\beta_t}{1-\hat{\alpha}_t}x_0+\frac{\sqrt{\hat{\alpha}_t}(1-\hat{\alpha}_{t-1})}{1-\hat{\alpha}_t}x_t=\frac{1}{\sqrt{\alpha_t}}(x_t-\frac{\beta_t}{\sqrt{1-\hat{\alpha}_t}}\epsilon),\epsilon\sim\mathcal{N}(0,I)$ $\tilde{\beta}_t=\frac{1-\hat{\alpha}_{t-1}}{1-\hat{\alpha}_t}\beta_t$ 由于 $\beta_t$ 是预定义的，我们只需要使用去噪网络 $\epsilon_\theta(x_t,t)$ 估计 $\epsilon$ ，从而得到均值 $\mu_\theta(x_t,t)=\tilde{\mu}_t(x_t,x_0)$ 。

4. 训练

扩散模型的优化目标为 $\mathcal{L}_\text{simple}=\mathbb{E}_{t,x_0,\epsilon}[\|\epsilon-\epsilon_\theta(\sqrt{\hat{\alpha}_t}\cdot x_0+\epsilon\sqrt{1-\hat{\alpha}_t},t)\|_2^2]$ 上式期望是针对数据、噪声和时间求得的，因此实际计算损失时，需要对数据、噪声和时间进行采样。

扩散模型的训练过程如下：

从训练集中采样数据 $x_0$ ；
从 $\{1,2,\cdots,T\}$ 均匀随机采样 $t$ ；
从标准正态分布采样噪声 $\epsilon$ ；
计算 $\|\epsilon-\epsilon_\theta(\sqrt{\hat{\alpha}_t}\cdot x_0+\epsilon\sqrt{1-\hat{\alpha}_t},t)\|_2^2$ 作为损失函数，进行反向传播。

5. 推断（采样）

扩散模型的推断即从高斯噪声 $x_T$ ，利用网络估计的噪声 $\epsilon_\theta(x_t,t)$ 根据3中的公式计算上一时刻的均值（对于方差，DDPM认为 $\sigma^2_t=\tilde{\beta}_t=\frac{1-\hat{\alpha}_{t-1}}{1-\hat{\alpha}_t}\beta_t\approx\beta_t$ ），从而逆推原始数据 $x_0$ 。

扩散模型的推断过程如下：

从标准正态分布中采样 $x_T$ ；
从 $t = T$ 开始，进行下面的过程（即扩散模型的逆向过程）直到 $t = 1$ ：
从标准正态分布中采样 $z$ ；
计算 $x_{t-1}=\frac{1}{\sqrt{\alpha_t}}(x_t-\frac{\beta_t}{\sqrt{1-\hat{\alpha}_t}}\epsilon_\theta(x_t,t))+\sigma_tz$ ；
$t = 1$ 时，计算 $x_0=\frac{1}{\sqrt{\alpha_1}}(x_1-\frac{\beta_1}{\sqrt{1-\hat{\alpha}_1}}\epsilon_\theta(x_1,1))$

6. 条件扩散模型

由于上述模型推断过程无输入信号，因此生成的数据是无约束的，用户无法控制生成的结果。引入条件可以使生成的数据偏向用户期望的结果。
引入条件的方法有很多。例如，对于图像生成任务而言，可以引入分类器指导扩散模型，利用其梯度指导图像生成偏向特定语义，使模型能在给定标签的情况下生成相应的图像。也可以输入图像或文本指导图像生成。
条件扩散模型的优化目标为
$\min_\theta{E}_{t,x_0,c,\epsilon}[\|\epsilon-\epsilon_\theta(x_t,t,c)\|_2^2]$