Stable Diffusion系列（五）：原理剖析——从文字到图片的神奇魔法（扩散篇）

羊城迷鹿

已于 2024-02-15 14:53:28 修改

阅读量2.2k

点赞数 16

CC 4.0 BY-SA版权

分类专栏：多模态模型文章标签： stable diffusion ddpm 扩散模型

于 2024-02-15 14:47:57 首次发布

本文为博主原创文章，未经博主允许不得转载，听见没。

本文链接：https://blog.youkuaiyun.com/jining11/article/details/135942402

多模态模型专栏收录该内容

12 篇文章 ¥15.90 ¥99.00

订阅专栏

超级会员免费看

文章目录

- DDPM

要想完成SD中从文字到图片的操作，必须要做到两步，第一步是理解文字输入包含的语义，第二步是利用语义引导图片的生成。下面我们从几篇论文入手，首先搞懂以假乱真的图片是如何生成的，再学会对自然语言的理解方式，也就弄懂了文生图的魔法是从何而来。最后，我们会看看SDXL、Control Net、Turbo以及LCM等变种分别是从哪些角度为SD锦上添花的。这里我们先从扩散讲起。

DDPM

这是解开图片生成之谜的第一把钥匙，原文是发表于NIPS2020的Denoising Diffusion Probabilistic Models，下面我们就如庖丁解牛般，尝试洞察里面的每一丝细节。

论文整体原理

先从标题说起，很久没有看到过这么简明扼要的论文名了，用三个词就完美概括了DDPM的核心思想，去噪（Denoising）是方法、扩散（Diffusion）是架构、概率（Probabilistic）是媒介。至于目的，当然是去生成以假乱真的图片。

图片生成不是什么新鲜事，VAE和GAN都是曾经的研究宠儿，它们在生成图片时都需要一步解压的操作，也就是从低维空间中获得关于图片的表征或概率分布，再使用解码器或生成器映射到高维的图片空间。而概率扩散可以被视为一个马尔科夫过程，马尔科夫链中不论是状态矩阵还是转移矩阵的大小都是固定的，因此扩散在一个固定的维度下

了解本专栏

超级会员免费看

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

羊城迷鹿 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。