文章链接:https://arxiv.org/pdf/2503.06568
代码链接:https://github.com/QY-H00/Conceptrol
亮点直击
发现了zero-shot adapters中的一个关键设计缺陷,表明忽略文本概念会导致参考图像中的注意力分配错误。
发现基础模型中的特定模块可以提供文本概念掩码,精确指示相应文本概念的空间位置。
提出了一种简单但有效的方法,称为Conceptrol。通过提取文本概念掩码,并利用它来增加视觉规范在个性化目标正确区域的注意力分数,同时抑制对无关区域的注意力。
大量实验表明,Conceptrol显著改善了zero-shot个性化图像生成的效果,甚至超越了微调方法,尽管其方法简单且计算开销可忽略不计。
效果先睹为快
总结速览
解决的问题
-
个性化图像生成中的平衡问题:现有的zero-shot adapters方法(如IP-Adapter和OminiControl)在生成个性化图像时,难以平衡保留参考图像内容和遵循文本提示的要求。生成的图像往往只是复制个性化内容,而不是根据文本提示进行调整。
-
设计缺陷:现有的adapters在将个性化图像与文本描述结合时存在设计缺陷,导致生成的图像无法充分利用基础文本到图像扩散模型的概念理解能力。
提出的方案
-
Conceptrol框架:提出了一个简单但有效的框架Conceptrol,用于增强zero-shot adapters的性能,而无需增加计算开销。
-
注意力机制优化:通过分析注意力机制,Conceptrol利用基础扩散模型中的特定注意力块来生成文本概念掩码,并将其应用于参考图像的注意力图中,从而更好地结合个性化内容和文本提示。
应用的技术
-
注意力掩码:利用基础扩散模型中的特定注意力块生成文本概念掩码,并将其应用于参考图像的注意力图中,以约束视觉规范的注意力。
-
训练免费方法:Conceptrol是一个即插即用的方法,无需重新训练,直接在推理过程中应用,显著提升了zero-shot adapters的性能。
达到的效果
-
性能提升:Conceptrol在个性化图像生成基准测试中,相比原始的IP-Adapter,提升了高达89%的性能,甚至超过了微调方法如Dreambooth LoRA。
-
概念保留与提示遵循的平衡:Conceptrol更好地平衡了概念保留和提示遵循,生成的图像既保留了参考图像的内容,又更好地遵循了文本提示的指令。
-
广泛适用性:Conceptrol不仅适用于基于UNet的扩散模型(如Stable Diffusion、SDXL),也适用于基于DiT的模型(如FLUX),展示了其广泛的适用性和有效性。
方法
为什么将参考图像视为全局条件是不理想的?
对于IP-Adapter和OminiControl,参考图像被用作全局条件,基于以下两个观察:
-
在训练过程中,图像条件始终作为生成目标中的主要主题呈现。
-
这些adapters中的图像条件和文本条件在数学公式中是对称的,即交换 和 不会改变建模方式,而文本条件已经作为生成内容的全局描述。
将图像和文本条件对称处理会导致zero-shot个性化面临两个主要挑战:
-
平衡提示遵循与概念保留:文本条件作为描述期望图像的全局提示,而将图像条件类似处理可能会导致冲突。如下图3(第1行)所示,IP-Adapter中的低图像条件强度(IP Scale)无法有效保留概念,而增加强度则会导致偏离文本提示并产生复制粘贴效果。这表明如果条件被对称处理,平衡提示遵循与概念保留将变得困难。
-
获取多样化数据集的挑战:即使使用相同主题但不同文本提示的数据对进行训练(如OminiControl),文本和图像条件之间的耦合仍然存在显著挑战。例如,当使用特定书籍的参考图像生成“一座雕像正在读书”时,系统可能会错误地优先考虑“雕像”而忽略“书籍”,如上图3(第2行)所示。
不应将图像和文本条件同等对待,而是将图像条件作为特定文本概念的视觉规范。例如,在提示“一张雕像正在读书的照片”中,图像条件应仅应用于“书籍”的生成,而不是整个场景。否则,如图3(第1行)所示,参考图像可能会影响“雕像”的生成并导致伪影。
噪声隐空间表示对文本和图像条件的注意力指示了什么?
由于注意力块是IP-Adapter 和 OminiControl 引入额外图像条件的主要机制,本文研究了这些条件如何与噪声隐空间表示交互并影响生成过程。先前的工作在完整生成后分析了注意力图,但它们仅关注文本到图像的生成。本文的分析在两个方面有所不同:
-
分析注意力图,以确定是否可以在生成过程中无需先验知识识别感兴趣区域。
-
研究了额外的参考图像如何影响生成过程。
为了探索这些问题,本文首先通过将条件缩放设置为零来分析没有参考图像的生成过程,同时计算参考图像的注意力图。再使用LangSAM(一种基于SAM 的开源词汇分割工具)来获取定制目标的伪掩码。下图5中,(b) 显示了LangSAM生成的掩码,而 (c) 显示了其中一个注意力图。通过计算注意力图与目标掩码之间的AUC,我们定量评估注意力图是否正确突出了目标的感兴趣区域。
图像条件的注意力分布未对齐:下图4展示了一个这种差异的例子。在这个例子中,与文本“avocado”对应的注意力图与生成结果中鳄梨(牛油果)的真实掩码非常匹配,而图像条件的注意力图则集中在无关物体(如狗)上。定量来看,图像条件注意力图在所有块中的最高AUC仅为0.38,而文本(如“avocado”)的AUC高达0.99。
视觉规范可以在高注意力分数区域内传递:IP-Adapter 可以通过手动应用注意力掩码来传递视觉规范。进一步在FLUX中使用OminiControl验证了这一点。具体来说,使用从仅文本条件生成的结果中分割出的感兴趣区域掩码,然后将其用于掩码图像条件生成以获得另一个结果。接着,从新结果中再次分割,并与原始掩码进行比较,发现基于UNet和DiT的模型的AUC均可高达0.99。这表明adapters可以在高注意力分数区域内传递参考图像的外观。
文本条件的概念特定注意力块指示生成过程中的感兴趣区域:与先前对注意力图的事后分析不同,本文研究了它们在生成过程中的特性。对于通过交叉注意力或多模态注意力引入文本条件的架构,我们观察到特定块能够清晰地突出感兴趣区域,如图5所示。为了量化这一点,比较了每个块和时间步的注意力图与通过LangSAM获得的标注感兴趣区域之间的AUC。如下图6所示,来自概念特定块的注意力图强烈指示了感兴趣区域。这些概念特定块包括:Stable Diffusion 中的 UP BLOCK 1.0.0、SDXL 中的 UP BLOCK 0.1.3 以及 FLUX 中的 BLOCK 18。将这些特定块的图称为文本概念掩码,因为它们直接对应于像素空间中的文本概念。本文从分析中获得的第三个见解是:这些特定块可以始终提供在定制目标区域上具有高分的注意力图。
Conceptrol:使用文本概念掩码控制视觉规范
本文提出了一种简单但有效的方法,称为Conceptrol,用于持续提升zero-shot adapters的个性化能力。基于之前的见解,Conceptrol 使用文本概念掩码来调整图像条件的注意力图,从而使个性化目标的区域获得最高分数,使adapters能够准确传递视觉规范。整体流程如下图2所示。
Conceptrol 在 Direct Adding / IP-Adapter 中的应用
对于概念特定的注意力块 (例如 SDXL 中的 UP BLOCK 0.1.3),在推理时间步 处的注意力图通过以下公式获得:
其中:
-
是注意力头的数量,
-
是特征图的大小,
-
是文本标记的数量。
本文从文本概念中切片出注意力图:
然后,将 在注意力头和文本概念标记上取平均并进行归一化,得到:
在推理过程中,可以通过使用图像条件对注意力进行掩码来修改IP-Adapter的交叉注意力。
其中, 对应于空间特征上的逐元素乘法。
MM-Attention / OminiControl 上的 Conceptrol
与 Direct Adding 上的 Conceptrol 类似,给定概念特定的注意力块 (在 FLUX 中为 BLOCK 18),首先计算其注意力图为 ,其中 是注意力头的数量, 是文本 token 的数量, 是隐空间 token 的数量,在推理时间步 时使用拼接的 token 。基于此注意力图,我们可以通过 来切片噪声隐空间特征的注意力图以获取文本概念。类似于公式 7,对每个头和文本概念中的文本 token 进行平均,但通过其均值进行归一化,得到 。
此外,与 Direct Adding 不同,MM-Attention 还强制文本和图像条件之间的注意力。为了进一步限制图像条件对无关概念的影响,定义掩码 为:
这里 是参考图像的条件缩放因子, 是一个接近 0 的值,使得 极小,以防止无关的文本 token 关注参考图像。按如下方式修改 OminiControl 中的注意力:
其中 的计算方式为:
其中, 表示矩阵乘法。
Conceptrol 预热
在早期阶段,注意力图的信息量较少,难以指示感兴趣的区域,如下图 4 和前面图 6 所示。因此引入另一个超参数——条件预热比例 ,以在预设时间步 之前禁止注入图像条件,其中 是总推理时间步数。在每个时间步 ,对于 之前的块,使用 ;否则使用 来控制视觉规范。
实验
评估设置
对比方法:为了评估本文方法的有效性,系统地将 Conceptrol 与其他最先进的方法进行比较,例如 Textual Inversion、DreamBooth、BLIP Diffusion 和 Emu2。为了展示 Conceptrol 在不同基础模型上的适用性,将其与 IP-Adapter 结合应用于基于 UNet 的模型(包括 Stable Diffusion 1.5 和 SDXL),以及与基于 DiT 的模型 FLUX 上的 OminiControl 结合。
评估协议:本文遵循 DreamBench++ 中概述的评估协议,这是一个用于个性化图像生成的综合数据集。该基准使用视觉语言模型 GPT-4 系统地评估概念保留和提示跟随的定制性能,展示了与其他基准相比更符合人类偏好的对齐效果。在正式评估中,个性化生成被表述为纳什讨价还价问题,目标是最大化纳什效用,即概念保留和提示遵循的乘积。
人类研究:使用 Amazon Mechanical Turk (MTurk) 进行了人类研究,以验证本文的方法是否符合人类偏好。具体来说,参与者被展示成对的图像,并被要求选择更好地保留原始概念并遵循提示的图像。
实现细节: 本文使用对比方法推荐设置,包括引导比例、去噪步骤数和条件比例,这些设置来自其原始论文或 Dreambench++。在 Stable Diffusion 1.5 和 SDXL 上使用 IP-Adapter 的 Conceptrol,使用条件比例 为 1.0,条件预热比例 为 0.2;对于在 FLUX 上使用 OminiControl 的 Conceptrol,使用条件比例为 1.0,条件预热比例为 0。
主要结果
在下表 1 中展示了不同方法、基础模型和各种个性化目标的主要结果。
充分发挥现有adapters的潜力:通过简单的控制,可以大幅提升零样本adapters在 Stable Diffusion 1.5、SDXL 和 FLUX 上的性能。值得注意的是,使用 Conceptrol 后,zero-shot adapters的性能甚至可以超越微调方法,例如 Dreambooth LoRA(在 Stable Diffusion 1.5 上为 0.397 > 0.359,在 SDXL 上为 0.524 > 0.517),这表明这些zero-shot adapters的潜力可以通过可忽略的计算开销进一步发挥,如下图 7 所示。
对人类偏好的帕累托改进:在下图 12 中报告了人类研究结果。与使用 GPT-4 评估的结果相比,本文的方法在概念保留方面与原始 IP-Adapter 在 SD 和 SDXL 上表现相似,同时在提示遵循方面表现出显著更好的效果。这一观察结果与 DreambenchPlus 一致,后者报告称,在 GPT-4 评估中,人类对齐在提示遵循方面高于概念保留。此外,在 FLUX 上使用 OminiControl 时,Conceptrol 能够在保持提示遵循的同时提高概念保留。总体而言,人类研究结果表明,本文的方法可以被视为一种帕累托改进,即在提升提示遵循或概念保留的同时不牺牲另一方。
消融研究
本文系统地评估了方法中每个组件的影响,包括掩码机制、条件比例和预热比例对个性化得分的影响。
掩码机制:为了评估文本概念掩码的有效性,将其与三种替代设置进行比较:
-
非特定掩码:注意力掩码直接从每个块中的文本概念单独转移,而不使用特定概念的注意力块;
-
来自其他块的掩码,例如 DOWN.0.0.0;
-
Oracle 掩码:首先生成完全基于文本提示的图像,然后使用 SAM 对主体进行分割以提取掩码。
如下表 2 所示,文本概念掩码优于非特定掩码和从无信息注意力块(如 DOWN.0.0.0)提取的掩码。值得注意的是,在没有额外计算开销或依赖辅助模型的情况下,文本概念掩码与 Oracle 掩码具有竞争力,而后者需要双倍的计算开销和一个外部的大规模分割模型。
条件比例:条件比例定义了zero-shot adapters中概念保留和提示遵循之间的默认权衡。我们对原始 IP-Adapter 及其在 Conceptrol 下的变体进行了消融研究,如图 9 (a) 所示。对于这两种方法,增加条件比例会增强概念保留,但会降低提示遵循。值得注意的是,Conceptrol 实现了更好的权衡,在不同的条件比例值下保持了更高的乘积得分。
条件预热比例:该比例是另一个重要的超参数,结果如下图 9(b) 所示。随着预热比例的增加,提示遵循得分提高,而概念保留得分下降。然而,Conceptrol 在每种设置下都持续提高了乘积得分。我们将 Conceptrol 与 IP-Adapter 的预热比例设置为 0.2,以增强提示遵循。对于 OmniControl,将预热比例设置为 0.0。这主要是因为 FLUX 的文本概念掩码比 Stable Diffusion 和 SDXL 收敛得更快。
结论
Conceptrol——一种简单而有效的即插即用方法,显著增强了zero-shot adapters在个性化图像生成中的性能。本文的方法基于注意力分析中的三个关键观察:
-
视觉规范的注意力通常与定制目标不一致;
-
视觉规范可以在高注意力区域内转移;
-
可以从目标获得高注意力的特定注意力块中提取文本概念掩码。
通过使用文本概念掩码转移视觉规范,Conceptrol 在不增加计算、数据或模型的情况下实现了显著的性能提升。研究结果强调了将文本概念集成到个性化图像生成管道中的重要性,即使在使用更多数据和先进架构的情况下也是如此。
参考文献
[1] Conceptrol: Concept Control of Zero-shot Personalized Image Generation