背景
现有方法要么处理条件效率低下,要么使用固定数量的条件,这并不能完全解决多个条件的复杂性及其潜在冲突。这强调了需要创新方法来有效管理多种条件,以实现更可靠和详细的图像合成。为了解决这个问题,我们提出了一个新的框架 DynamicControl ,它支持不同控制信号的动态组合,允许自适应选择不同数量和类型的条件。
本文方法从一个双循环控制器开始,它通过利用预先训练的条件生成模型和判别模型为所有输入条件生成初始真实分数排序。此控制器评估提取条件和输入条件之间的相似性,以及与源图像的像素级相似性。然后,我们集成多模态大型语言模型 (MLLM) 来构建一个高效的条件评估器。此评估器根据双循环控制器的分数排名优化条件的排序。我们的方法联合优化 MLLM 和扩散模型,利用 MLLM 的推理能力来促进多条件文本到图像 (T2I) 任务。最终排序的条件被馈送到一个并行多控制适配器中,该适配器从动态视觉条件中学习特征图,并将它们集成以调制 ControlNet,从而增强对生成图像的控制。 通过定量和定性比较,DynamicControl 证明了它在各种条件控制下的可控性、生成质量和可组合性方面优于现有方法。
![(左:)DynamicControl 的多个条件生成结果。(右:)处理 T2I 任务中多种情况的不同方案的比较。 (a) 使用激活的 MOE 编码器随机选择一个条件,(b) 条件的输入数量是手动固定的,以及 (c) 我们提出的 DynamicControl 提出了一个条件评估器和多控制适配器来自适应地选择条件。
](https://prod-files-secure.s3.us-west-2.amazonaws.co