BlobCtrl来袭，开启元素级视觉编辑精细之旅，效果超震撼（北大、港中文、腾讯合作成果）-优快云博客

本文链接：https://blog.youkuaiyun.com/Black_Rock_br/article/details/146564802

亮点直言：

BlobCtrl：开创性元素级视觉编辑框架

* 框架简介：BlobCtrl是一个创新的统一框架，首次实现了对视觉元素的精确、灵活操控，同时保留其内在特性。
* 架构与策略：采用双分支架构，搭配独特训练范式和策略，在外观保真度与创意多样性间达到平衡。
* 数据集与基准：推出BlobData，专为训练元素级视觉模型的大规模数据集，以及严格评估基准BlobBench。
* 实验验证：经大量实验，BlobCtrl在元素级生成和编辑任务中表现优于现有方法，且兼具计算效率与实用性。

一：面临的问题

1-精细操控受限：

当下基于扩散模型的图像生成技术，无法像Adobe Photoshop等传统工具那样，对单个元素进行精准的元素级操作，缺乏精细控制能力。

2-布局调整不灵活：

在元素生成与编辑时，现有方法难以实现连续的布局控制，使得元素的位置、大小以及方向调整不够自如。

3-外观与身份易丢失：

在进行元素级编辑的过程中，现有方法往往难以维持元素原有的外观和身份信息，导致编辑后的图像显得不自然。

4-视觉和谐性欠佳：

当处理包含多个元素的组合图像时，现有方法难以保持整体的视觉和谐性，使得生成的图像存在不协调的问题。

5-训练数据不足：

缺乏大规模成对的训练数据，这在很大程度上限制了端到端训练模型的性能提升。

二：解决方案

1-BlobCtrl框架：

提出了一个基于概率blob表示的框架，用于统一元素级生成和编辑。其中，blob作为视觉原语，能够有效分离并表示空间位置、语义内容和身份信息。

2-双分支扩散架构：

设计了一个双分支扩散模型，分别对前景和背景元素进行处理，并借助层次特征融合实现前景与背景的无缝整合。

3-自监督训练范式：

运用自监督训练范式，搭配专门的数据增强和评分函数，提升模型的泛化能力和效率。

4-可控丢弃策略：

在推理阶段，采用随机丢弃策略，灵活地在外观保真度和创意多样性之间进行平衡

三：技术应用

1. 概率Blob表示方法

使用二维高斯分布作为Blob的几何建模工具，通过这种连续的概率分布形式实现布局控制的平滑性，同时增强视觉上的和谐感。

2. 可微分Blob渲染技术

基于变分自编码器（VAE）提取的特征，采用可微分Blob渲染（Differentiable Blob Splatting）技术，确保生成元素在外观和身份信息上的高度一致性。

3. 双分支扩散架构

设计了一种双分支扩散模型，分别对前景和背景元素进行独立建模，并通过层次化的特征融合机制实现两者的自然衔接与无缝整合。

4. 自监督学习框架

采用自监督训练策略，结合随机数据增强技术和ID保留评分函数，提升模型在复杂场景下的鲁棒性以及泛化能力。

5. 随机丢弃机制

在推理阶段引入随机丢弃策略，动态调节生成图像在外观保真度和多样性之间的平衡，从而满足不同应用场景的需求。

四：达到的效果

1-精确的元素级操作：

BlobCtrl在元素级生成和编辑任务中表现出色，能够实现精确的元素位置、大小和方向调整。

2-连续的布局控制：

通过blob的平滑性，实现了连续的布局控制，使得元素调整更加灵活。

3-外观和身份保持：

结合可微分blob splatting和VAE特征，有效保持了元素的外观和身份信息。

4-视觉和谐性：

BlobCtrl在处理多元素组合时，能够保持视觉和谐性，生成协调的图像。

5-计算效率高：

BlobCtrl在保持高效计算的同时，提供了精确和灵活的视觉内容创建解决方案。

五：基于Blob的元素级表示

Blob的有效性：为什么说Blob是有效的元素级表示呢？Blob作为基础标记，能精准地呈现对象的位置、大小和方向。而且，它以高斯分布的形式存在，相较于带有强烈形状限制的分割掩码，能提供更灵活且和谐的元素级表达方式。

Blob公式：

Blob不透明度

表示为高斯分布的blob能够计算空间维度上的不透明度，从而引出了blob splatting和blob合成的概念。这些概念对于实现平滑渲染和视觉元素的无缝集成至关重要。

首先计算到blob中心的平方马氏距离：

Blob合成与Splatting

BlobCtrl的自监督范式

优势与应用：基于blob的表示具备连续的空间控制能力，可实现灵活操作；具备无缝合成能力，可实现和谐整合；还具备空间感知的splatting能力，可实现视觉语义。借助这些优势，本文引入了一种自监督训练范式，旨在开发出一个鲁棒且多功能的模型，用于元素级视觉生成和编辑。

为了处理元素级前景输入，我们使用了一个修改过的预训练扩散主干网络，并移除了交叉注意力层。这种方法有两个目的：预训练权重为有效的前景特征处理提供了强大的生成先验，而移除交叉注意力层确保模型仅关注视觉内容，而不受更广泛上下文的影响。

自监督训练

虽然不同位置对象的配对数据是理想的训练数据，但这种数据稀缺。先前的方法依赖于视频数据，但这引入了不必要的复杂性，降低了模型性能。

相反，本文提出了一种自监督训练策略，利用任何图像都可以被视为元素操作过程的目标结果的思路。对于每个训练图像，识别目标元素的位置，并在不同位置随机生成一个blob以模拟源位置。这模拟了操作过程，如前面图3所示，其中一个玩具似乎从随机的左侧位置移动到其实际的右侧位置。我们在训练期间使用噪声预测评分函数优化模型。

身份保留与场景协调

随机数据增强：为了防止模型默认采用简单的复制粘贴解决方案，在训练期间对前景元素进行广泛的数据增强。这包括随机变换，如颜色抖动、缩放、旋转、擦除和透视变化。这些增强有两个主要目的：它们迫使模型根据指定的布局和外观和谐地放置前景元素，而随机擦除则培养了处理不完整元素的强大修复能力。这种方法确保模型学会灵活且上下文相关地生成和操作元素，保持与背景的视觉一致性。

身份保留评分函数：为了有效解耦前景和背景分支——确保前景分支注入元素级信息，而背景分支整合这些元素——本文提出了一个身份保留评分函数。在训练期间，保留前景分支中的扩散模型输出层（在推理期间丢弃），并应用一个仅在前景元素区域内操作的评分函数。

可控的保真度-多样性权衡

为了实现外观保真度和创意多样性之间的灵活控制，在训练期间实施了随机丢弃策略。首先随机丢弃前景分支的权重，使模型能够在基于全局文本信息自由生成前景元素和严格保留给定前景身份之间进行调整。其次随机丢弃要splat的语义特征和前景元素的VAE特征，从而灵活控制语义和外观之间的平衡。应用：

实验

数据集、基准和指标

BlobData构建：为了训练BlobCtrl，构建了BlobData（1.86M样本），数据来源于BrushData，包含图像、分割掩码、拟合的椭圆参数（以及导出的二维高斯分布）和描述性文本。数据集构建过程包括：(1) 过滤源图像，保留短边超过480像素且具有有效实例分割掩码的图像。(2) 应用掩码过滤标准，保留面积占图像总面积比例在0.01到0.9之间的掩码，并排除位于图像边界的掩码。(3) 对过滤后的掩码拟合椭圆参数并导出二维高斯分布。(4) 移除无效样本，特别是协方差值低于1e-5的样本。(5) 使用InternVL-2.5生成详细的图像描述。

BlobBench构建：现有的评估基准如DreamBooth、COCOE、COCO Val和CreatiLayout仅评估接地能力或身份保留，但无法同时评估两者。它们还缺乏对完整元素级操作（如组合、移动、调整大小、删除和替换）的覆盖。本文引入了BlobBench，这是一个包含100张精选图像的综合基准，均匀分布在不同的元素级操作中。每张图像都经过专家标注，包括椭圆参数、前景掩码和详细的文本描述。BlobBench涵盖了真实世界和AI生成的图像，涵盖室内外场景、动物和风景等多种场景，确保评估的公平性和有效性。

评估指标：本文使用客观指标和人工评估来评估BlobCtrl，包括客观评估（身份保留、接地准确性、生成质量和协调性）和主观评估。

实现细节

训练细节：BlobCtrl基于Stable Diffusion v1.5构建。在训练期间，所有图像和注释都调整为512×512像素。使用预训练的UNet权重初始化前景和背景分支。前景分支通过移除交叉注意力层进行全微调，而背景分支使用LoRA 进行微调，秩为64。采用Adam优化器，学习率为1e-5，权重衰减为0.01。模型在BlobData数据集（包含1.86M样本）上训练7天，使用24个NVIDIA V100 GPU，批量大小为192。为了实现可控的保真度-多样性权衡，将丢弃概率设置为0.1。身份保留损失的权重在训练期间从1.0逐渐衰减到0.6。此外，为了在推理期间实现无分类器指导，我们将标题丢弃概率设置为0.1。

评估细节：在BlobBench基准上评估BlobCtrl，并与三种最先进的方法进行比较：GliGen，一种基于边界框的文本到图像模型；Anydoor，一种基于分割掩码的图像到图像模型；以及Magic Fixup，专门用于协调变换区域。为了系统评估五种基本元素级操作（组合、移动、调整大小、替换和删除），我们为基线方法设计了特定的工作流程。对于Anydoor，我们通过将背景传送到前景区域来创建干净的背景，然后通过将前景对象传送到目标位置进行编辑。对于GliGen，使用BlobCtrl移除元素以生成干净的背景，然后应用边界框约束以及文本和图像条件。对于Magic Fixup，我们使用编辑操作的刚性变换对前景元素进行变形，然后进行场景协调。

定量评估

与最先进方法的比较：如下表1和表2所示，BlobCtrl在所有评估指标上均表现出显著改进：

相比之下，BlobCtrl在所有方面都表现出卓越的性能——更好地泛化到多样化场景、更准确的身份保留、精确的布局控制，同时保持视觉一致性。

身份保留：对于需要身份保留的任务（组合、移动、调整大小、替换），BlobCtrl的平均CLIP-I（87.48 vs. 84.28）和DINO（87.45 vs. 81.70）得分显著高于最佳基线。对于删除任务，本文的方法显示出较低的身份得分（CLIP-I和DINO得分的平均值）（21.95 vs. 26.55），表明更彻底的元素消除。
布局控制：BlobCtrl表现出优越的空间控制精度，相对于之前的最佳方法，布局MSE降低了8.11%。这验证了基于概率blob表示在精确元素操作中的有效性。
生成质量：本文的方法在标准质量指标上创造了新的最先进性能基准：FID 102.8094，LPIPS 0.2196，PSNR 32.1571，SSIM 0.7507。这些结果证明了BlobCtrl在生成高保真输出的同时保持全局视觉一致性的能力。
将这些显著改进归功于两项关键创新：(1) 基于概率blob的表示，能够精确控制元素属性；(2) 自监督训练范式，有效解耦并重新组合视觉元素的身份、语义和布局信息，同时消除了由不必要的相机运动和其他视频特定伪影引起的性能下降，这些问题困扰了之前的方法。

人工评估：下表3中报告的主观评估结果显示了BlobCtrl在所有评估标准上的卓越表现。从数量上看，本文的方法以显著优势超越了之前的最佳方法，建立了新的最先进性能：在外观保真度上，本文的方法获得了87.2%的偏好率，而之前的最佳方法为82.5%；在布局准确性上，偏好率为86.5%，而之前的最佳方法为81.7%；在视觉协调性上，偏好率为82.1%，而之前的最佳方法为80.3%。这些在人工评估指标上的显著改进表明，BlobCtrl生成的结果对人类观察者来说更具视觉吸引力和自然性，使其更适合实际应用。
定性评估

下图4展示了BlobCtrl与最先进方法在各种元素级操作场景中的定性比较。结果展示了本文方法的几个关键优势：
Anydoor：在元素操作过程中难以准确保留身份，并且在元素级删除方面表现出局限性，通常会留下伪影或不完整的修改。
GliGen：虽然提供了布局控制能力，但无法有效保留操作元素的视觉外观和身份，导致输出不一致。
Magic Mixup：协调能力不足，导致修改元素与其周围环境之间的视觉不一致。
消融实验
身份保留评分函数的消融实验：本文进行了一项消融实验，以分析身份保留评分函数的有效性。如下图6所示，在相同的训练步骤下，使用身份保留评分函数的模型的噪声预测损失（0.0235）显著低于未使用该函数的模型（0.0399），表明其收敛速度更快。为了更好地理解该评分函数如何影响生成过程，我们使用前景分支预测的噪声对去噪结果进行了可视化。可视化结果表明，在身份保留评分函数的指导下，前景分支有效地专注于生成前景内容，验证了我们通过该机制解耦前景和背景元素生成的设计选择。
讨论
* **结论** ：本文阐述了BlobCtrl，这是一个基于概率blob表示的统一框架，融合了元素级生成与编辑功能。其中，blob作为视觉原语，负责编码空间布局、语义以及身份信息，进而达成精准的元素操作目标。借助自监督训练的双分支架构，BlobCtrl得以在保留前景身份的同时，确保背景的协调性。此外，随机数据增强与丢弃策略的运用，为在外观保真度与创意多样性之间实现灵活调控提供了可能。在BlobBench开展的大量实验结果表明，BlobCtrl在元素级操作任务领域已达到顶尖性能水平。
* **局限性与未来工作** ：尽管BlobCtrl在元素级操作方面展现出了出色的能力，但目前它仅能在单次模型前向传递过程中，对单个元素进行迭代操作。不过，值得庆幸的是，基于blob的表示本身具备天然支持深度感知合成的特性，这为后续的研究工作指明了一条极具潜力的发展方向。