大模型
前言
人工智能生成内容(AI Generated Content,AIGC)
生成式模型本质上是一组概率分布。
DDPM
训练——加噪过程
数据集中随机选出图片X0,随机选择t时刻,标准正态分布随机选择噪声epsilon,unet网络预测的epsilon_theta,是该时刻的噪音图像。输入已经添加好噪声的图像,预测输出本次添加的噪声。
这是一个加噪的过程,x(t-1)再加上了当前随机的产生的噪声epsilon后变成了x(t)。所以网络要根据输入x(t)以及时刻t,学习到加的这个噪声到底是什么,所以损失函数就是使网络输出epsilon_theta无限接近epsilon
下图也是一个加噪示意图(来自下面的视频),无论加噪降噪,核心还是那两个公式,都在图中。这两个公式是结论,推导过程就是最终得出这俩公式。
加噪过程,因为通过推导建立了x(t)和x(0)的直接联系,如上图所示,x(t)可由x(0)直接得出,所以训练的时候,t是随机uniform得到的,而无需从0到1000迭代训练。
推理——降噪过程
先随机产生一个x(T),T一般是1000,二者(T是经过编码的)同时输入网络得到噪声
sample推理过程图:
DDIM
DDIM主要有两项改进:
- 对于一个已经训练好的DDPM,只需要对采样公式做简单的修改,模型就能在去噪时「跳步骤」,在一步去噪迭代中直接预测若干次去噪后的结果。比如说,假设模型从时刻T=100开始去噪,新的模型可以在每步去噪迭代中预测10次去噪操作后的结果,也就是逐步预测时刻t=90,80,…,0的结果。这样,DDPM的采样速度就被加速了10倍。
- DDIM论文推广了DDPM的数学模型,打破了马尔科夫链的过程,从更高的视角定义了DDPM的反向过程(去噪过程)。在这个新数学模型下,我们可以自定义模型的噪声强度,让同一个训练好的DDPM有不同的采样效果。
VQ-VAE
先学习总结文末的链接博客
总结:
- VQ-VAE也是一种VAE,就是特征加了量化
- 在LDM模型中,训练VQ-VAE的时候,encoder和decoder都需要,推理或训练二阶段diffusion模型的时候,只需要encoder,拿到中间特征即可
lantent diffusion models(LDM)
DDPM是一个基于马尔可夫链的算法,它通过对一个随机噪声进行逐步去噪来实现了图像生成任务。DDPM等算法是直接在图像像素空间中进行操作,并且因为DDPM的链式特性,这造成了它的训练和推理都是非常消耗资源的。为了提升扩散模型的生成效率,LDM提出了将扩散空间从图像空间转移到潜空间(Latent Space),而这个潜空间的概率分布可以通过训练好的VAE得到。预测概率分布除了能够提升生成效率,还能够避免扩散模型在图像像素上的过度训练,而图像的这些细节我们交给更擅长做这个的VAE去完成,从而显著提升了生成图像的质量。最后,LDM通过交叉注意力模块,支持将不同模态的条件加入到扩散过程中,从而实现了生成模型的生成内容的可控性。
优势:
- 压缩潜在空间:在低分辨率的潜在空间中训练扩散模型计算效率更高
- 整的平滑/压缩潜在空间:扩散模型任务更容易,采样速度更快
- 灵活性:自动编码器可以根据数据(图像、视频、文本、图形、3D点云、网格等)进行定制
模型结构
LDM是一个二阶段的模型,包括训练