什么是stable diffusion？

最新推荐文章于 2025-08-01 21:40:11 发布

原创

最新推荐文章于 2025-08-01 21:40:11 发布 · 5.2k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#stable diffusion

🌟 Stable Diffusion：一种深度学习文本到图像生成模型 🌟

Stable Diffusion是2022年发布的深度学习文本到图像生成模型，主要用于根据文本的描述产生详细图像。它还可以应用于其他任务，如内补绘制、外补绘制，以及在提示词指导下产生图生图的转变。

💻 Stable Diffusion的开发和支持 💻

Stable Diffusion是一种潜在扩散模型，由慕尼黑大学的CompVis研究团体开发的各种生成性人工神经网络之一。它是由初创公司StabilityAI、CompVis与Runway合作开发，并得到EleutherAI和LAION的支持。截至2022年10月，StabilityAI筹集了1.01亿美元的资金。

📥 Stable Diffusion的源代码和模型权重 📥

Stable Diffusion的源代码和模型权重已分别公开发布在GitHub和Hugging Face，可以在大多数配备有适度GPU的电脑硬件上运行。而以前的专有文生图模型（如DALL-E和Midjourney）只能通过云计算服务访问。

🔍 Stable Diffusion的工作原理 🔍

Stable Diffusion是一种扩散模型的变体，叫做“潜在扩散模型”（latent diffusion model; LDM）。扩散模型是在2015年推出的，其目的是消除对训练图像的连续应用高斯噪声。Stable Diffusion由3个部分组成：变分自编码器（VAE）、U-Net和一个文本编码器。与其学习去噪图像数据（在“像素空间”中），而是训练VAE将图像转换为低维潜在空间。添加和去除高斯噪声的过程被应用于这个潜在表示，然后将最终的去噪输出解码到像素空间中。在前向扩散过程中，高斯噪声被迭代地应用于压缩的潜在表征。每个去噪步骤都由一个包含ResNet骨干的U-Net架构完成，通过从前向扩散往反方向去噪而获得潜在表征。最后，VAE解码器通过将表征转换回像素空间来生成输出图像。研究人员指出，降低训练和生成的计算要求是LDM的一个优势。

📝 调节数据的编码 📝

去噪步骤可以以文本串、图像或一些其他数据为条件。调节数据的