大白话扩散模型（无公式版）

深度学习机器

已于 2024-03-24 13:23:58 修改

阅读量940

点赞数 28

分类专栏： AIGC 深度学习入门优质项目文章标签：概率论机器学习人工智能 AIGC

于 2024-03-24 13:23:39 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_33137873/article/details/136890652

版权

本文介绍了扩散模型在图像生成领域的兴起，它利用扩散过程解决传统模型如GAN和VAE的模式坍缩问题。文章详细解释了前向过程如何通过添加正态分布噪声模拟图像退化，以及反向过程如何通过训练模型预测噪声序列。通过中心极限定理，扩散模型简化了计算并优化了内存使用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

背景

传统的图像生成模型有GAN，VAE等，但是存在模式坍缩，即生成图片缺乏多样性，这是因为模型本身结构导致的。而扩散模型拥有训练稳定，保持图像多样性等特点，逐渐成为现在AIGC领域的主流。

扩散模型

正如其名，该方法是从自然界的扩散现象（热力学第二定律、熵增）得到启发，认为任意我们想要的图片可以由随机噪声经过一系列采样步骤后得到，把对这个过程进行定义和建模就称为扩散模型。虽然原始论文涉及到的知识包括随机分布，马尔科夫链等，而且推导过程极其复杂，但本文不会深入去推导相关的公式，而是把重心放在思考这个过程以及对其中发现的一些问题进行探讨。

前向过程

前向过程其实就是一些假设。给定一张原始的图片，不断地往这张图片加正态分布的噪声，最终这张图片会变成正态分布噪声。

为什么老有这个正态分布出现？其他分布不行吗？

统计学上有个中心极限定理，在特定条件下，大量统计独立的随机变量的和的分布趋于正态分布。依据这一定理的结论，其它概率分布能够用正态分布作为近似。这就降低了很多随机过程的计算难度。

那这个前向过程的作用是啥呢？

如果在假设的条件下，能够得到最终的噪声图片，那么反过来从噪声中也能得到想要的“原始图片”，即我就能从随机噪声生成任意图片，这里就与GAN是一样的。这就是下面的反向过程推导了。

噪声是怎么加的？

前向过程加噪声是先小后大，因为一开始图片质量很高，加很小的噪声就发生很大的变化，而越后面的图片含有噪声越多，失真越严重，必须加更大的噪声才能引起较大变化。如果玩过文生图的话就能发现，选择了一定的采样步数后，前几步图片变化非常大，从模糊的噪声逐渐出现轮廓，后面几步基本不变，只是一些细节发生了变化。

前向过程的最终结论

前向推导出加噪声过程可由 $x_0$ 直接得到，那在训练过程就不必保存中间的过程变量，不需要一步步迭代，节省中间变量占用的内存。相当于前向过程是一个公式，时间复杂度是 $O (1)$ ，整个模型的时间复杂度只取决于反向过程。

反向过程

反向过程其实就是在前面定义的基础上，本来想直接求解 $q(x_{t-1}|x_t)$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。