Diffusion大模型

henyaoyuancc

已于 2025-05-09 11:00:21 修改

阅读量331

点赞数 1

文章标签：人工智能

于 2024-07-23 16:59:22 首次发布

本文链接：https://blog.youkuaiyun.com/henyaoyuancc/article/details/140640748

版权

前言

人工智能生成内容（AI Generated Content，AIGC）

生成式模型本质上是一组概率分布。

DDPM

训练——加噪过程

数据集中随机选出图片X0，随机选择t时刻，标准正态分布随机选择噪声epsilon，unet网络预测的epsilon_theta，是该时刻的噪音图像。输入已经添加好噪声的图像，预测输出本次添加的噪声。
这是一个加噪的过程，x（t-1）再加上了当前随机的产生的噪声epsilon后变成了x（t）。所以网络要根据输入x（t）以及时刻t，学习到加的这个噪声到底是什么，所以损失函数就是使网络输出epsilon_theta无限接近epsilon
在这里插入图片描述
下图也是一个加噪示意图（来自下面的视频），无论加噪降噪，核心还是那两个公式，都在图中。这两个公式是结论，推导过程就是最终得出这俩公式。

加噪过程，因为通过推导建立了x(t)和x(0)的直接联系，如上图所示，x(t)可由x(0)直接得出，所以训练的时候，t是随机uniform得到的，而无需从0到1000迭代训练。

推理——降噪过程

先随机产生一个x(T)，T一般是1000，二者（T是经过编码的）同时输入网络得到噪声
在这里插入图片描述
sample推理过程图：

DDPM很好的视频讲解

DDIM

DDIM主要有两项改进：

对于一个已经训练好的DDPM，只需要对采样公式做简单的修改，模型就能在去噪时「跳步骤」，在一步去噪迭代中直接预测若干次去噪后的结果。比如说，假设模型从时刻T=100开始去噪，新的模型可以在每步去噪迭代中预测10次去噪操作后的结果，也就是逐步预测时刻t=90,80,…,0的结果。这样，DDPM的采样速度就被加速了10倍。
DDIM论文推广了DDPM的数学模型，打破了马尔科夫链的过程，从更高的视角定义了DDPM的反向过程（去噪过程）。在这个新数学模型下，我们可以自定义模型的噪声强度，让同一个训练好的DDPM有不同的采样效果。

VQ-VAE

先学习总结文末的链接博客
总结：

VQ-VAE也是一种VAE，就是特征加了量化
在LDM模型中，训练VQ-VAE的时候，encoder和decoder都需要，推理或训练二阶段diffusion模型的时候，只需要encoder，拿到中间特征即可

lantent diffusion models（LDM）

DDPM是一个基于马尔可夫链的算法，它通过对一个随机噪声进行逐步去噪来实现了图像生成任务。DDPM等算法是直接在图像像素空间中进行操作，并且因为DDPM的链式特性，这造成了它的训练和推理都是非常消耗资源的。为了提升扩散模型的生成效率，LDM提出了将扩散空间从图像空间转移到潜空间（Latent Space），而这个潜空间的概率分布可以通过训练好的VAE得到。预测概率分布除了能够提升生成效率，还能够避免扩散模型在图像像素上的过度训练，而图像的这些细节我们交给更擅长做这个的VAE去完成，从而显著提升了生成图像的质量。最后，LDM通过交叉注意力模块，支持将不同模态的条件加入到扩散过程中，从而实现了生成模型的生成内容的可控性。

优势：