早期SD模型控制生成方法

原创已于 2025-07-21 22:31:48 修改 · 1.2k 阅读

29 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #深度学习 #人工智能

于 2025-07-20 17:05:54 首次发布

生成模型同时被 3 个专栏收录

29 篇文章

订阅专栏

论文阅读

23 篇文章

订阅专栏

扩散模型

19 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

文章目录

简介
Controlnet
T2I-Adapter
IP-Adapter

简介

Stable Diffusion系列模型出现，极大推动了扩散模型、AI图片生成技术发展，但由于生成结果可控性差使得其主要流行于各种社区，难以直接应用于生产，不能实际落地。随着技术发展，模型基础能力越来越强，生成可控性也越来越好，但即使如今的Flux、SD3、MJ、GPT-4o等各系列模型中也没有完全解决此问题。在SD模型初期出现过各种提高控制性生成的方法，本文档对其中使用较广泛的三个进行简短说明。

Controlnet

Controlnet这个名字传递的信息就很明确，其主要是用于“控制”，虽然基础模型的能力已经迭代了好几轮，但模型的控制能力才是决定模型能否广泛应用的重中之重。Controlnet在SD1.5时代出现，一直延续到现在的Flux、SD3.5时代，其使得图片生成不再是抽卡和疲于修改提示词的玄学，可以说该技术极大程度上推广了图片生成模型的发展。
在这里插入图片描述

图1 Contorlnet抽象示意图

图1通过简洁的示意图清晰的展示了Controlnet的思想，为了在原始模型的基础上添加新的控制能力，其将原始模型权重冻结，保持原始模型通过训练拥有的能力，然后在旁路复制原始模型权重构建一个可训练的支路，该支路因为是原始模型的备份，其具有在大量图片数据上训练后的先验知识，是一个强大的特征提取器。新支路接受额外的控制图片数据，通过零初始化的卷积层与原始支路链接实现额外条件注入。

记训练好的原始模型为 $\mathcal{F}(\cdot,\mathbb{\Theta})$ ，其中 $\mathbb{\Theta}$ 表示模型参数，其功能时将输入 $x$ 映射为输出 $y$ ，即 $y=\mathcal{F}(x,\mathbb{\Theta})$ 。在图片生成模型中， $x 、 y$ 均为对应图片的2D特征map，即 $\in \mathbb{R}^{h \times w \times c}$ 。图1(b)中可训练的备份支路以额外的条件向量 $c$ 为输入， $\text{zero convolution}$ 记为 $\mathcal{Z}(\cdot;\cdot)$ ，是权重和偏置初始化为0的 $1\times1$ 卷积，备份支路与主支路通过两个 $\text{zero convolution}$ 链接，最终Controlnet的输出为：
$y_c=\mathcal{F}(x,\mathbb{\Theta})+\mathcal{Z}(\mathcal{F}((x+\mathcal{Z}(c;\mathbb{\Theta}_{z1})),\mathbb{\Theta}_c);\mathbb{\Theta}_{z2}) \tag1$

训练开始时，因为 $\text{zero convolution}$ 的权重和偏置均为0，故 $y_c=y$ 。这种方式避免有害噪声影响可训练备份模块中的原始能力，保证了其通过预训练得到的能力。通过零初始化层，ControlNet 实现了 “保留预训练能力” 和 “添加新控制功能” 的平衡，这也是其能高效适配多种图像生成任务的关键之一。

上述是从抽象层面对Contorlnet进行了一个解释，但实际应用到扩散模型中还是有一些区别，Controlnet在SD1.5、SD2.1模型中的应用架构图如图2所示。SD1.5、SD2.1模型中噪声预测模块是典型的Unet结构，针对前12层下采样编码层和中间层构建可训练备份支路，剩下的12等上采用解码层不构建备份支路，而是直接使用 $\text{zero convolution}$ 实现数据流转。扩散模型是在隐空间，在主支路中这一步是通过训练好的VAE模型实现，笔者猜测是因为使用的控制图片往往是canny图、深度图、姿势图等非常规图片，故Controlnet论文并没有直接使用预训练的VAE模型进行控制图片的特征提取，而是使用一个额外的有四层卷积层构建的模块 $\epsilon(\cdot)$ 提取控制特片的特征 $c_f$ ，该模块与其他模块联合训练。
在这里插入图片描述

图2 SD1.5/SD2.1 Controlnet架构图

Controlnet模型训练时，原始图片特征为 $z_0$ ，通过 $t$ 步加噪后为 $z_t
$。在一些给定条件，如时间步 $t$ 、文本提示词 $c_t$ 、额外控制图片特征 $c_f$ ，训练损失为： $\mathcal{L}=\mathbb{E}_{z_0,t,c_t,c_f,\epsilon \in \mathcal{N} \sim (0,1)}[||\epsilon-\epsilon_{\theta}(z_t,t,c_t,c_f)||^2_2] \tag2$

训练过程中以50%的概率随机将 $c_t$ 替换为空字符串，此方式可能增强Controlnet直接识别图片图像中的语义信息能力，使其能够替代提示词的作用。Controlnet可同时支持多种不同的unit以不同的控制图片类型作为条件，无需额外的权重调整或线性插值。

T2I-Adapter

T2I-Adapter论文作者认为仅靠文本提示词不能完全发挥预训练扩散模型的知识和能力，其开发T2I-Adapter用于挖掘文生图扩散模型的能力实现精细化控制生成。通过训练轻量级的adapter模块，使用外部控制信息与模型内部知识进行对齐。基于不同的条件信息可训练多种adapters，实现对生成结果的色彩、结构等方面的控制、编辑效果。同时还具备良好的组合性和泛化性。T2I-Adapter架构图如图3所示，其是一个可以注入额外控制信息的网络模块，具有以下优点：

即插即用：不影响预训练模型的性能；
简单小巧：仅77M参数，模型体积约300M，训练成本低；
灵活：可基于空间色彩控制、构图控制等各种控制条件训练多种adapters；
组合性好：可轻松组合多个适配器以实现多条件控制；
泛化性好：训练后可应用于基础架构一致的所有模型

图3 T2I-Adapter架构图

在SD系列模型中使用预训练的CLIP模型将条件文本转换为tokens序列 $y$ ，在Unet中的每一层通过交叉注意力计算将 $y$ 引入去噪过程，该过程可用以下公式表达：
$\begin{cases} \mathbf{Q} = \mathbf{W}_Q \phi(\mathbf{Z}_t); \quad \mathbf{K} = \mathbf{W}_K \tau(\mathbf{y}); \quad \mathbf{V} = \mathbf{W}_V \tau(\mathbf{y}) \\ Attention(\mathbf{Q}, \mathbf{K}, \mathbf{V}) = softmax\left(\frac{\mathbf{Q}\mathbf{K}^T}{\sqrt{d}}\right) \cdot \mathbf{V} \end{cases} \tag3$

其中 $\phi(\cdot),\tau(\cdot)$ 是可学习的嵌入层； $W_Q,W_K,W_V$ 是可学习的映射矩阵。通过此种方式引导的文本信息在图片生成过程中不能提供有效的结构引导，在复杂的场景下导致随机、不稳定的结果；T2I-Adapater认为这不是模型性能的问题，而是文本提供的信息没有与模型内部知识对齐。

在这里插入图片描述

图4 T2I-Adapter详细架构图

图4详细展示了T2I-Adapter和SD模型的整体架构图，SD模型参数是冻结的，左下角标识火焰的模块就是多种adapters，具体结构对应右下角；不同的adapters可直接通过可调节的权重 $\omega_i$ 组合应用。每个adapter由四个特征提取块和三个下采样块组成。每个特征提取块由一个卷积层和两个残差块组成，用于提取 $F^k_c$ ，最终得到多尺度条件特征 $F_c=\{F^1_c,F^2_c,F^3_c,F^4_c\}$ ;其中每个子项的维度和Unet中的中间特征 $F_{enc}=\{F^1_{enc},F^2_{enc},F^3_{enc},F^4_{enc}\}$ 对应维度子项的维度相同，应用时就是在每个尺度上将 $F^i_c,F^i_{enc}$ 相加，可由以下公示表示：
$\begin{align*} F_c &= \mathcal{F}_{AD}(C) \tag4 \\ \hat{F}^i_{enc}&= F^i_{enc} + F^i_c,\quad i \in \{1,2,3,4\} \tag5 \end{align*}$

其中 $C$ 是条件输入， $\mathcal{F}_{AD}$ 是T2I-Adapter。将多个不同控制类型的adapters组合，只需将公示(4)改为以下公示：
$F_c=\sum^K_{k=1}\omega_k \mathcal{F}^k_{AD}(C_k) \tag6$

与Controlnet训练相同，T2I-Adapter训练时将预训练的SD模型权重冻结，只更新adapter模块参数。每个训练样本是一个三元组，包括原始图片 $X_0$ 、条件图 $C$ 、文本提示 $y$ 。首先通过编码器将原始图片 $X_0$ 嵌入到潜在空间中得到 $Z_0$ 。然后，从 $[0, T]$ 中随机采样一个时间步 $t$ ，并向 $Z_0$ 添加相应的噪声，得到 $Z_t$ 。完整的训练损失函数如下：
$\mathcal{L}_{AD}=\mathbb{E}_{Z_0,t,F_c,\epsilon \in \mathcal{N} \sim (0,1)}[||\epsilon-\epsilon_{\theta}(Z_t,t,\tau(y),F_c)||^2_2] \tag7$

论文作者将DDIM推理采样阶段均匀分为初期、中期和后期，在三个阶段分别添加条件信息，结果显示在中期和后期添加引导对生成结果几乎没有影响，如图5所示；这表明生成结果的主要内容在采样初期就已确定。因此，如果时间步 $t$ 从后期区间采样，训练过程中的引导信息就会被忽略。
在这里插入图片描述

图5 DDIM三阶段引入条件信息生成结果对比

为了加强adapter的训练效果，采用非均匀采样来提高 $t$ 落在采样初期的概率，故使用三次函数，即 $t=(1−(\frac{t}{T})^3)×T,\quad t\in U(0,T)$ ，作为 $t$ 的分布。图 6 对比了均匀采样与三次采样的效果，包括颜色引导和关键点姿态引导的情况。可以发现， $t$ 的均匀采样存在引导效果较弱的问题，在颜色控制方面尤为明显，而三次采样策略能够改善这一缺陷。
在这里插入图片描述

图6 不同采样效果对比

IP-Adapter

受Controlnet和T2I-Adapter的启发和鼓舞，IP-Adapter的开发人员相信可以能在不改变原始预训练扩散模型的前提下，通过极小的训练需求，将图片作为prompt，通过额外的网络将条件引入预训练扩散模型，实现可控的图片生成，即Image Prompt技术，与Text Prompt对应，这也是IP-Adapter名称由来。

IP-Adapter开发者认为之前一些方法可以被视为具备图像提示能力的方式，但生成的图像仅在部分程度上忠实于提示图像。其结果往往比经过微调的图像提示模型差，更不用说与从头开始训练的模型相比了，主要问题在于文本到图像扩散模型的交叉注意力模块。预训练扩散模型中交叉注意力层的键（key）和值（value）投影权重是为适配文本特征而训练的。因此，将图像特征与文本特征合并后输入交叉注意力层，仅能实现图像特征与文本特征的对齐，但这可能会丢失一些特定于图像的信息，最终导致利用参考图像进行的生成只能达到粗粒度的可控性（例如，图像风格）。

Controlnet中条件信息是通过 $\text{zero convolution}$ 引入Unet模块、T2I-Adapter中是直接将条件信息与Unet模块的中间特征相加，而IP-Adapter不同，其粒度更细，聚焦在交叉注意力模块。IP-Adapter将Unet交叉注意力模块中的文本特征、图像特征解耦，对于扩散模型 UNet 中的每个交叉注意力层，额外添加一个仅用于处理图像特征的交叉注意力层。在训练阶段，仅对新添加的交叉注意力层的参数进行训练，而原始的 UNet 模型保持冻结状态。

结果表明，仅具有 22M 参数的IP-Adapter，其生成性能可与从文本到图像扩散模型完全微调得到的图像提示模型相媲美。更重要的是，IP-Adapter展现出卓越的泛化能力，且与文本提示兼容。借助 IP-Adapter，各类图像生成任务都能轻松实现。IP-Adapter除了极强的可复用性和灵活性外，其还可与 ControlNet 等其他可控适配器兼容，从而轻松实现图像提示与结构控制的结合；得益于解耦交叉注意力策略，图像提示与文本提示能够兼容，进而实现多模态图像生成。
在这里插入图片描述

图7 IP-Adapter架构图

如图7所示，其中为红色的训练模块就是IP-Adapter，由两部分组成，分别是从图像中提取图像特征的图像编码器和将图像特征嵌入预训练扩散模型中的交叉注意力模块。与文本特征提取一样，图像特征提取直接使用预训练的CLIP模型的图像编码器，该部分权重冻结；然后采用一个小型可训练的投影网络，由一个线性层和一个层归一化组成，将图像嵌入投影为长度为 N 的特征序列（IP-Adapter论文中 N=4），图像特征的维度与预训练扩散模型中文本特征的维度相同。

与公式(3)相同，原始SD模型将CLIP文本编码器提取的文本特征通过交叉注意力层引入Unet，即给定查询性特征 $Z$ 和文本特征 $c_t$ ，输出的交叉注意力 $Z^{'}$ 表示如下：
$Z^{'}=\text{Attention}(Q,K,V)=\text{Softmax}(\frac{QK^T}{\sqrt{d}})V \tag8$

其中 $Q=ZW_q,K=c_tW_k,V=c_tW_v$ 分别是注意力计算中query、key、value， $W_q,W_k,W_v$ 是可训练线性投影层的权重矩阵。

IP-Adapter不是将文本特征和图像特征拼接后直接通过公式(8)引入Unet，而是使用另外一个单独的交叉注意力层将图像特征引入Unet。给定图片特征 $c_i$ ，新的交叉注意力 $Z^{''}$ 表示如下：
$Z^{''}=\text{Attention}(Q,K^{'},V^{'})=\text{Softmax}(\frac{Q(K^{'})^T}{\sqrt{d}})V^{'} \tag9$

其中 $Q=ZW_q,K^{'}=c_iW^{'}_k,V^{'}=c_iW^{'}_v$ 分别是注意力计算中query、key、value， $W^{'}_k,W^{'}_v$ 是可训练线性投影层的权重矩阵。注意，公式(8)、(9)中使用相同的query，因此每个交叉注意力层增加两个参数 $W^{'}_k,W^{'}_v$ 。为了加快收敛， $W^{'}_k,W^{'}_v$ 是从 $W_k,W_v$ 初始化而来。将文本和图像的交叉注意力相加作为注重结果，即
$Z^{new}=\text{Softmax}(\frac{QK^T}{\sqrt{d}})V + \text{Softmax}(\frac{Q(K^{'})^T}{\sqrt{d}})V^{'} \tag{10}$

训练过程中只更新 $W^{'}_k,W^{'}_v$ ，其他模型参数全部冻结；基于图片文本对，IP-Adapter使用以下公式进行训练：
$\mathcal{L}_{simple}=\mathbb{E}_{x_0,\epsilon, c_t,c_i,t}[||\epsilon-\epsilon_{\theta}(x_t,c_t,c_i,t)||^2_2] \tag{11}$

训练过程中也会随机丢弃图像条件，以便在推理阶段实现无分类器引导/CFG，计算公式如下所示，图像条件丢弃是通过将图像嵌入全部置为0实现。
$\hat{\epsilon}_{\theta}(x_t,c_t,c_i,t)=w \epsilon_{\theta}(x_t,c_t,c_i,t)+(1-w)\epsilon_{\theta}(x_t,t) \tag{12}$

由于文本和图像的交叉注意力解耦，在推理阶段还可以调整图像条件的权重：
$Z^{new}=\text{Softmax}(\frac{QK^T}{\sqrt{d}})V + \lambda \cdot \text{Softmax}(\frac{Q(K^{'})^T}{\sqrt{d}})V^{'} \tag{13}$