论文阅读（1）Adding Conditional Control to Text-to-Image Diffusion Models

原创

已于 2024-01-18 17:45:17 修改 · 1.5k 阅读

34 ·

CC 4.0 BY-SA版权

文章标签：

#论文阅读 #AI作画 #stable diffusion

于 2024-01-18 17:25:22 首次发布

文章探讨了如何通过锁定模型参数并使用可训练副本来增强文生图模型对复杂布局的学习能力，特别是通过零卷积层处理条件输入。方法包括ControlNet结构和突然收敛现象的观察，以及无类器指导的分辨率加权策略。

Motivation

文生图模型对于图像空间组成的控制有限；仅通过文本提示难以精确表达复杂的布局、子式、形状和形式
以端到端（e.g. 深度图到图像，姿势到图像等）的方式学习大型文生图扩散模型的条件控制具有挑战性（训练数据不足、训练过度拟合或灾难性遗忘）

Approach

通过锁定模型参数并制作其编码层的可训练副本来保持模型的质量与功能

可训练副本和原始锁定模型通过零卷积层连接，权重初始化为零，以便它们在训练过程中逐渐增长。一次确保在训练开始时不会将有害噪声添加到 large diffusion model 的深层特征中，并保护可训练副本中的大规模预训练主干免受这种噪声的破坏。

零卷积 (zero convolution)：权重和偏置都是用0初始化的1 x 1卷积。

Condition：Canny edges, Hough lines, user scribbles, human key points, segmentation maps, shape normals, depths, and cartoon line drawings

FAQ（参考 Github 官方回答）

问：如果卷积层的权重为零，梯度也为零，网络将不会学到任何东西。为什么『零卷积』有效？
答：这是错误的。让我们考虑一个非常简单的
$y = w x + b$
我们有
$\partial y/\partial w=x, \partial y/\partial x=w, \partial y/\partial b=1$
如果 $w = 0$ 且 $\neq 0$ ，那么
$\partial y/\partial w \neq 0, \partial y/\partial x=0, \partial y/\partial b\neq 0$
这意味着只要 $\neq 0$ ，一次梯度下降迭代就会使