ControlNet特征提取：预训练编码器中间层分析-优快云博客

ControlNet特征提取：预训练编码器中间层分析

【免费下载链接】ControlNet Let us control diffusion models! 项目地址: https://gitcode.com/gh_mirrors/co/ControlNet

引言

在生成式AI领域，ControlNet技术通过引入额外的控制信号，显著提升了扩散模型（Diffusion Model）的可控性。其核心在于如何有效提取和利用预训练编码器的中间层特征，实现对生成过程的精准引导。本文将深入剖析ControlNet中预训练编码器中间层的特征提取机制，帮助读者理解其工作原理及应用场景。

ControlNet架构概览

ControlNet的整体架构基于条件扩散模型，主要由预训练编码器、控制网络和扩散模型三部分组成。其中，预训练编码器负责提取输入图像的特征，控制网络对这些特征进行处理和转换，最后将其注入到扩散模型的中间层，实现对生成过程的控制。

ControlNet的核心创新在于其对预训练编码器中间层特征的利用方式。与传统方法仅使用编码器的最终输出不同，ControlNet通过精心设计的控制网络，能够有效地利用编码器不同层级的中间特征，从而实现更精细的控制效果。

预训练编码器中间层特征提取机制

编码器结构分析

在ControlNet中，常用的预训练编码器包括CLIP、T5等模型。以CLIP为例，其文本编码器部分在ControlNet中被广泛应用。我们可以在ldm/modules/encoders/modules.py文件中找到相关实现。

CLIP文本编码器的核心是一个Transformer模型，其前向传播过程如下：

def forward(self, text):
    batch_encoding = self.tokenizer(text, truncation=True, max_length=self.max_length, return_length=True,
                                    return_overflowing_tokens=False, padding="max_length", return_tensors="pt")
    tokens = batch_encoding["input_ids"].to(self.device)
    outputs = self.transformer(input_ids=tokens, output_hidden_states=self.layer=="hidden")
    if self.layer == "last":
        z = outputs.last_hidden_state
    elif self.layer == "pooled":
        z = outputs.pooler_output[:, None, :]
    else:
        z = outputs.hidden_states[self.layer_idx]
    return z

从上述代码可以看出，CLIP编码器不仅可以返回最终的隐藏状态（last_hidden_state），还可以返回中间层的隐藏状态（hidden_states）。这为ControlNet利用不同层级的特征提供了可能。

中间层特征的选择与利用

在ControlNet中，控制网络（ControlNet）负责处理从预训练编码器提取的中间层特征。控制网络的实现可以在cldm/cldm.py文件中找到。

控制网络的前向传播过程如下：

def forward(self, x, hint, timesteps, context, **kwargs):
    t_emb = timestep_embedding(timesteps, self.model_channels, repeat_only=False)
    emb = self.time_embed(t_emb)

    guided_hint = self.input_hint_block(hint, emb, context)

    outs = []

    h = x.type(self.dtype)
    for module, zero_conv in zip(self.input_blocks, self.zero_convs):
        if guided_hint is not None:
            h = module(h, emb, context)
            h += guided_hint
            guided_hint = None
        else:
            h = module(h, emb, context)
        outs.append(zero_conv(h, emb, context))

    h = self.middle_block(h, emb, context)
    outs.append(self.middle_block_out(h, emb, context))

    return outs

在这段代码中，控制网络首先对输入的提示信息（hint）进行处理，得到guided_hint。然后，将guided_hint与编码器的中间层特征进行融合，并通过zero_conv层输出。这些输出将被注入到扩散模型的对应中间层，实现对生成过程的控制。

特征融合策略

ControlNet采用了一种渐进式的特征融合策略。在扩散模型的前向传播过程中，控制网络提取的特征会被逐步注入到扩散模型的不同层级。这一过程可以在ControlledUnetModel的实现中看到：

def forward(self, x, timesteps=None, context=None, control=None, only_mid_control=False, **kwargs):
    hs = []
    with torch.no_grad():
        t_emb = timestep_embedding(timesteps, self.model_channels, repeat_only=False)
        emb = self.time_embed(t_emb)
        h = x.type(self.dtype)
        for module in self.input_blocks:
            h = module(h, emb, context)
            hs.append(h)
        h = self.middle_block(h, emb, context)

    if control is not None:
        h += control.pop()

    for i, module in enumerate(self.output_blocks):
        if only_mid_control or control is None:
            h = torch.cat([h, hs.pop()], dim=1)
        else:
            h = torch.cat([h, hs.pop() + control.pop()], dim=1)
        h = module(h, emb, context)

    h = h.type(x.dtype)
    return self.out(h)

从上述代码可以看出，控制特征首先被注入到扩散模型的中间块（middle_block），然后在输出块（output_blocks）中与编码器特征逐步融合。这种渐进式的融合策略可以有效地保留不同层级的特征信息，从而实现更精细的控制效果。