代码:GitHub - CompVis/stable-diffusion: A latent text-to-image diffusion model
论文:[1505.04597] U-Net: Convolutional Networks for Biomedical Image Segmentation (arxiv.org)
一、什么是Diffusion Model(扩散模型)
(本文介绍的diffusion Model 是论文:Denoising Diffusion Probabilistic Models(DDPM)去噪扩散概率模型,DDPM是2020年提出,是AIGC主流生成模型)
我们可以看到最近很火的text-to-image,通过给定文本描述生成图片,当前最先进的两个text-to-image是OpenAI的DALL E2和Google的Imagen,他们都是基于扩散模型来完成的。
Diffusion Model也是生成模型的一种,因此在讲扩散模型之前,我们来简单回顾一下生成模型的发展:(图片来自:什么是扩散模型? |Lil'Log的 (lilianweng.github.io))
其他生成模型再次不展开讲述,扩散模型不同于以上生成模型,扩散模型的原理类似通过学习给图片去噪的过程,因此生成的图片比其他生成模型情绪度高。
扩散模型定义了一个马