diffusion model (扩散模型）原理

最新推荐文章于 2025-09-28 16:56:49 发布

原创最新推荐文章于 2025-09-28 16:56:49 发布 · 1.7k 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #深度学习

DeepLearning 专栏收录该内容

69 篇文章

订阅专栏

本文介绍了扩散模型，区分了其正向的加噪声过程和反向的去噪生成过程。与VAE的一次性编码解码不同，扩散模型通过分步骤进行自回归。着重讲解了噪声预测器的训练方法和推理过程，以及如何从高斯噪声图片逐渐恢复清晰图片。

扩散模型分为正向过程和反向过程。
正向过程为一点点在图片上添加噪声的过程，反向过程为去噪声的过程。

图片的生成就是反向过程，给一张高斯噪声图片，逐步去噪生成图片。
在这里插入图片描述

扩散模型和VAE的区别，
VAE是一步到位的（通过encoder-decoder），扩散模型要分成N个step, 是一个自回归过程。

在这里插入图片描述

扩散模型的训练过程

重复1到5行的过程，直到收敛。
每次采样一张图片 $x_{0}$ ，t, 和高斯噪声图像 $\epsilon$ 。
$\bar{\alpha _{t} }$ 是事先定义好的数字，你可以定义它随时间线性变小，也可以是cosine分布。在你采样 t 的时候，t 也同时对应了一个 $\bar{\alpha _{t} }$ 。
$\epsilon$ 是高斯噪声图片，那么在这里插入图片描述就表示在图片上添加噪声。
$\epsilon_{\theta}$ 可以理解为一个noise predictor, 它可以是一个网络， $in p u t$ 是加了噪声的图片和 t , 输出是一个噪声图片 $\epsilon_{\theta}(input)$ ,
根据采样的噪声 $\epsilon$ 和预测的噪声图片 $\epsilon_{\theta}(input)$ 的误差来训练这个noise predictor,
使它能够输出尽可能接进 $\epsilon$ 的噪声。