【生成模型之三】ControlNet & Latent Diffusion Models论文详解

最新推荐文章于 2025-06-08 10:30:40 发布

原创

最新推荐文章于 2025-06-08 10:30:40 发布 · 1.7k 阅读

·

10

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#深度学习 #人工智能 #扩散模型 #stable diffusion #AIGC

论文：《Adding Conditional Control to Text-to-Image Diffusion Models》

我们提出了ControlNet，这是一种神经网络架构，可以将空间条件控制添加到大型预训练的文本到图像扩散模型中。ControlNet 冻结了生产就绪的大型扩散模型，并重用其经过数十亿张图像预训练的深度和鲁棒编码层作为学习各种条件控制的强大骨干。神经网络结构与“零卷积”（零初始化卷积层）相连接，该卷积层从零开始逐步增加参数，并确保没有有害噪声会影响微调。

在这里插入图片描述

1.问题挑战

以端到端的方式学习大型文本到图像融合模型的条件控制具有挑战性。特定条件下的训练数据量可能远小于一般文本到图像训练的可用数据量。对数据有限的大型预训练模型进行直接fine-tune或继续训练可能会导致过拟合和灾难性遗忘[31,75]。研究人员已经证明，通过限制可训练参数的数量，可以缓解这种遗忘。

本文介绍了ControlNet，这是一种端到端的神经网络架构，用于学习大型预训练文本到图像扩散模型的条件控制（在我们的实现中为稳定扩散）。ControlNet通过freeze其参数并制作其编码层的可训练副本来保留大型模型的质量和功能。

在这里插入图片描述

zero convolution零卷积层是一个1×1的卷积层，其权重和偏置都初始化为零。零卷积通过在初始训练步骤中消除随机噪声作为梯度来保护backbone。
稳定扩散本质上是一个U-Net[73]，它有一个编码器、一个中间块和一个跳跃连接的解码器。编码器和解码器都包含12个块，完整模型包含25个块，包括中间块。
文本提示使用CLIP文本编码器[66]，扩散时间步长使用位置编码的时间编码器进行编码。

在训练过程中，由于零卷积不会给网络增加噪声，因此模型应该始终能够预测高质量的图像。我们观察到，该模型不会逐渐学习控制条件，而是突然成功地跟随输入的调节图像；通常在不到10K的优化步骤中。如图4所示，我们

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Jeremy-Sky 你的鼓励是我的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。