罗切斯特大学提出OmniPaint:突破性图像编辑框架,实现高精度对象移除与无缝插入!

🌐 社群导航

🔗 点击加入➡️【AIGC/LLM/MLLM/3D/自动驾驶】 技术交流群

🔗 点击加入➡️【2-3月CCF投稿】交流群

最新论文解读系列

论文名:OmniPaint: Mastering Object-Oriented Editing via Disentangled Insertion-Removal Inpainting               

论文链接:https://arxiv.org/pdf/2503.08677

项目链接:https://github.com/yeates/OmniPaint-Page   

导读

基于扩散的生成模型彻底改变了面向对象的图像编辑方式,然而,由于物理效果的复杂相互作用以及配对训练数据不足等挑战,它们在实际的对象移除和插入应用中仍受到阻碍。在这项工作中,我们推出了OmniPaint,这是一个统一的框架,它将对象移除和插入重新概念化为相互依存的过程,而非孤立的任务。OmniPaint利用预训练的扩散先验,结合一个渐进式训练流程(包括初始的配对样本优化以及随后通过CycleFlow进行的大规模非配对细化),在精确消除前景和无缝插入对象的同时,还能忠实地保留场景的几何结构和固有属性。此外,我们新颖的CFD指标为上下文一致性和对象幻觉提供了一种强大的、无需参考的评估方法,为高保真图像编辑树立了新的基准。

简介

面向对象的图像编辑已从简单的像素级调整发展到复杂的场景操作任务,包括对象移除和插入。经典的图像对象移除/插入方法遵循两条截然不同且无交集的技术路线,如对象协调和图像补全。基于大型扩散的生成模型的最新进展拓宽了面向对象编辑的视野,不仅能够对掩膜区域进行高保真修复,还能将新对象创造性地无缝合成到现有图像中。这些模型还允许通过文本提示或参考图像手动操作对象的属性和外观,在视觉内容修改和创作方面展现出独特的产业价值。

  

图片

图2. 对象移除的CFD指标评估可视化。分割结果是使用经过细化的SAM获得的,紫色掩码表示背景,橙色掩码表示完全在原始掩码内的片段,未加掩码的表示超出原始掩码的部分。请注意,橙色掩码区域对应于幻觉对象。ReMOV得分越高越好,而CFD得分越低越好。在这些情况下,ReMOVE得分过于接近,无法表明移除是否成功,而CFD得分能提供更清晰的区分。

图片

  

图3. 用于评估目标移除质量的拟议CFD(计算流体动力学,Computational Fluid Dynamics)指标示意图。左图:我们使用SAM(分割一切模型,Segment Anything Model)将修复后的图像分割成目标掩码,并将其分类为嵌套掩码  和重叠掩码 。中图:上下文连贯性项衡量了在DINOv2特征空间中,修复区域  与其周围背景  之间的特征偏差。右图:通过比较检测到的嵌套目标  的深度特征与其相邻的重叠掩码  的深度特征来计算幻觉惩罚,以评估是否出现了不需要的类似目标的结构。

预备知识

流匹配(Flow Matching,FM)是一种生成式建模框架,它学习一个速度场,通过一个与时间相关的流将源分布映射到目标分布。FM的目标是训练一个神经网络,使其预测值逼近速度场。这可以通过最小化流匹配损失来实现,该损失定义如下:

其中  和  。由于为任意  估计真实速度场  的复杂性,直接优化  是难以处理的。

为简化优化过程,条件流匹配(Conditional Flow Matching,CFM)框架引入了条件分布,其重点关注以目标样本为条件的路径。在此条件设定下的速度场可通过解析方式给出:

条件概率路径遵循线性插值:

其中且。利用此公式,条件流匹配损失定义为:

这种损失通过利用的已知形式,避免了直接估计的需要。

方法

我们将图像修复构建为一个双路径、面向对象的过程,该过程包含两个关键方向:对象移除和对象插入。给定一幅图像和一个表示编辑区域的二值掩码(其中表示被掩码的像素),我们的模型对被掩码的输入进行操作,以实现有针对性的修改。对象移除路径会抑制内的语义痕迹,确保边界过渡平滑,同时防止出现意外的伪影或幻觉。与此同时,对象插入路径会整合一个新对象,保持全局一致性和上下文感知的真实感。

1. OmniPaint框架

OmniPaint基于FLUX - 1.dev构建,这是一种基于扩散的架构,具有多模态扩散变压器(Multi - Modal Diffusion Transformer,MM - DiT)主干。在保留FLUX强大的文本到图像先验的同时,我们引入了文献中使用的、专为对象感知编辑量身定制的图像条件机制。掩码图像条件。该模型将高斯噪声细化为,使用掩码图像作为去噪引导,以实现对象移除和插入。我们利用现有的FLUX网络,包括其变分自编码器(VAE)编码器和块化层,将映射到共享特征空间,从而得到条件化的令牌序列。

参考对象条件设定。对于对象插入,模型以掩码图像和参考对象图像  为条件。为了在最小化背景干扰的同时保留对象特征,我们使用 Carvekit对  进行预处理以去除背景,然后调整其大小以匹配  的空间维度。参考对象与掩码图像一样经过相同的潜在编码和分块处理,生成相应的潜在序列 。最终的条件标记通过将两个序列沿标记维度连接得到:。无提示自适应控制。鉴于我们任务高度依赖图像的性质,文本提示可能会引入歧义。为了缓解这一问题,我们采用了无提示自适应控制机制,用可学习的特定任务参数取代文本嵌入。具体来说,我们引入了两个可训练向量:

从空字符串的嵌入初始化,并针对每个任务分别进行优化。推理通过嵌入选择在移除和插入之间切换。

为了提高计算效率,我们冻结了FLUX主干网络,并进行参数高效微调(Parameter-Efficient Fine-Tuning,PEFT),分别针对对象移除和插入优化两个LoRA参数集  和 。

2. 数据收集与掩码增强

我们收集了一个包含3300个真实世界配对样本的数据集,这些样本是在不同的室内和室外环境中采集的,涵盖了各种物理效应,如阴影、镜面反射、光学畸变和遮挡(示例见附录)。每个三元组  都经过精心标注,以确保高质量。

为了增强模型针对不同掩码变化的鲁棒性,我们针对对象移除和插入应用了不同的增强策略。对于移除操作,我们通过形态学变换引入分割噪声,以可配置的参数随机应用膨胀或腐蚀操作。通过扰动边界以及添加或移除几何形状(例如,圆形、矩形)来模拟不精确的掩码。附录中提供了增强后的示例及其有效性分析。对于对象插入操作,由于不需要显式的对象检测,我们通过将分割掩码扩展为其边界框或凸包来简化掩码增强,以确保适应各种参考对象格式。参考对象图像增强遵循先前的研究。

3. 训练流程

略。对于移除操作,我们通过形态学变换引入分割噪声,以可配置的参数随机应用膨胀或腐蚀操作。通过扰动边界以及添加或移除几何形状(例如,圆形、矩形)来模拟不精确的掩码。附录中提供了增强后的示例及其有效性分析。对于对象插入操作,由于不需要显式的对象检测,我们通过将分割掩码扩展为其边

在我们的实验中,我们观察到当前的训练数据不足以在对象插入时保持参考对象的身份,如附录中的图 7(b) 和表 A 所示。通过训练好的模型自举配对数据,类似于 Object - Drop,是一种直接的解决方案,但需要可靠的过滤机制,这仍然是一个有待解决的挑战。

幸运的是,目标插入和目标移除在数学上是互补的逆问题(即,每个问题都可以看作是另一个问题的逆过程)。受循环一致性方法的启发,我们提议利用非配对数据,而不是依赖配对增强。具体而言,我们利用大规模目标分割数据集(这些数据集缺乏明确的移除配对)来增强目标插入。本节介绍我们的三阶段训练流程:(1)图像修复预训练,(2)配对预热,(3)CycleFlow 非配对后训练。

3.1. 图像修复预训练

据,而不是依赖配对增强。具体而言,我们利用大规模目标分割数据集(这些数据集缺乏明确的移除配对)来增强目标插入。本节介绍我们的三阶段训练

为了赋予我们的模型基本的图像修复能力,我们首先在一个预图像修复任务上对其进行微调,为后续阶段初始化  和 。使用一个掩码生成器,我们对 LAION 数据集应用随机掩码,并通过最小化 CFM 损失来训练模型以重建缺失区域。

其中  强制模型填充被遮蔽的区域,以使整个图像逼近 。我们在附录中表明,预训练有助于提升对象编辑性能。

3.2. 配对预热

接下来,我们利用 3000 个配对样本进行真实世界中的对象插入和移除训练。在配对预热阶段,分别对  和  进行训练,以实现感知效果的对象移除(例如,移除反射和阴影)以及融入效果的对象插入。

对于插入操作, 从  中抽取,其中  表示保留前景对象的图像。我们通过修改公式 4 来优化以下目标:

其中  表示条件化标记序列,它将掩码图像和对象身份特征连接起来,而  表示相应的特定任务嵌入。

对于移除操作, 是从  中采样得到的,其中  表示前景对象在物理上被移除的图像。给定基于  的条件,优化目标变为:

在实践中,为了提高计算效率,我们假设采用线性插值路径,在两个目标中都设置。这个预热阶段增强了对象移除效果,能有效处理反射和阴影问题(图6)。然而,仅使用3000对样本时,在对象插入任务中难以保持参考对象的一致性(图7(b))。

3.3. CycleFlow无配对后训练

为了加强对象插入的训练,我们利用大规模对象分割数据集,如COCO-Stuff和HQSeg,作为无配对数据源。这些数据集提供了前景对象掩码,使我们能够轻松构建模型的条件输入和。

我们继续在这个更大的数据集上使用与公式7相同的目标来调整,如图7(b)所示,这提高了身份保留能力。的情况对应于仅使用公式7进行训练。然而,这些分割数据集缺乏对物体效果(如阴影和反射)的标注,这意味着掩码图像输入仍然保留了这些效果。这抑制了模型合成逼真物体效果的能力,使得插入操作看起来更像是参考物体的复制粘贴操作,如图7(b)中的情况所示。

  

图片

  

图4. CycleFlow示意图。映射移除对象,预测出估计目标,而重新插入对象,生成估计目标。通过确保从效果移除输出中重建原始潜在变量来强制实现循环一致性。虚线箭头表示循环损失监督。

为了克服这一限制,我们使用经过良好训练的移除参数,即使在时,该参数也能移除对象的影响(见图7(a))。将用作预处理步骤,可以对已移除影响的潜在变量进行插入训练。

因此,我们引入了循环流(CycleFlow)机制,它包含两个映射:(移除方向)和 (插入方向)。这些映射预测  处的速度场,估计其目标样本 :

其中  和  分别表示移除和插入的估计目标样本。在此,我们还依赖于  线性插值设置。

如图 4 所示,我们设计了一个移除 - 插入循环,确保重新插入已移除的对象大致恢复其原始潜在表示。

为了强制实现这种循环一致性,我们定义了一个循环损失(Cycle Loss):

其中  表示梯度截断算子,在反向传播过程中将其输出视为常量以固定参数 。在 CycleFlow 后训练期间,我们在未配对的训练数据上优化一个总体损失:,其中  控制循环一致性的强度(在 5.5 节中分析)。

根据经验,这项工作仅专注于用于对象插入的 CycleFlow,因为仅预热就足以进行移除操作。

4. 上下文感知特征偏差(CFD)分数

我们引入上下文感知特征偏差(CFD)分数来定量评估目标移除性能。如图3所示,CFD由两部分组成:一个幻觉惩罚项,用于检测并惩罚在移除区域中出现的不需要的类目标结构;一个上下文连贯性项,用于评估填充区域与周围背景的融合程度。

幻觉惩罚项。给定一个目标掩码M,令表示移除区域的像素。将定义为其边界框。移除后,我们的目标是确定合成内容是否引入了虚假的类目标结构。

我们应用现成的SAM - ViT - H模型将图像分割成掩码。聚焦于附近的掩码,我们将它们分类如下:

  • 嵌套掩码,完全包含在移除区域内。

  • 重叠的掩码,  ,部分重叠  但超出范围。

简单的幻觉惩罚只是计算嵌套掩码,但有些可能是由分割噪声引起的。相反,我们利用深度特征相似度来评估一个掩码是否合理地融入其上下文。为了细化分割,我们将与任何  相邻的重叠掩码合并。

其中  表示一个重叠掩码,并且如果这些掩码共享一个边界像素或者它们的单像素膨胀区域重叠,则 。

然后,幻觉惩罚定义如下:

其中  对每个嵌套掩码的贡献进行加权。特征嵌入  是从预训练的视觉模型 DINOv2中提取的。

上下文连贯性。即使当 (即未检测到嵌套对象)时,修复后的内容仍可能与周围背景不匹配。为了量化这种结构一致性,我们计算特征偏差:

其中  表示不包括掩码区域的边界框。

    

图片

  

图 5. 对象插入的定性比较。给定掩码图像和参考对象图像(第一行),我们比较 AnyDoor、IMPRINT和 OmniPaint 的结果。

最终的 CFD 指标。最终的 CFD 得分计算如下:

较低的 CFD 表示更好的去除质量——最少的幻觉和无缝的上下文融合。

实验

1 计算流体动力学(CFD)分析

我们进行定性分析,以确定我们的计算流体动力学(CFD)得分是否能有效捕捉上下文连贯性和幻觉伪影,从而与现有的指标(如ReMOVE)相比,对物体移除质量提供更可靠的评估。如图2所示,FLUX-Inpainting会产生明显的幻觉——像船只、人物或漂浮的罐子等幻影物体——但仍能获得较高的ReMOVE分数。相比之下,计算流体动力学(CFD)通过使用分割一切模型(SAM)对修复区域进行分割,并检查嵌套和重叠掩码内的特征级差异,有效地对这些幻觉进行了惩罚。同样,虽然LaMa会在掩码区域内插值背景纹理,但其有限的生成先验往往会因物体效果检测不足而导致幽灵般的伪影。相反,我们的OmniPaint通过完全消除目标物体而不引入不必要的伪影,展示了卓越的移除保真度,这反映在其显著较低的计算流体动力学(CFD)分数上。

    

图片

  

图6. 具有挑战性场景下目标移除的定性比较。顶部:同时移除目标和玻璃反射。中部:在真实世界光照下无阴影移除。底部:抗遮挡修复,无失真地重建背景目标。对比的方法包括FreeCompose、PowerPaint、CLIPAway和FLUX-Inpainting。

表1. 我们的300样本移除测试集上的定量结果。

通过同时量化不需要的物体的出现情况和上下文对齐情况,CFD(上下文特征差异,Contextual Feature Discrepancy)与人类的视觉感知高度契合。这些发现证实了CFD是一种可靠的评估指标,有助于确保物体移除不仅能实现无缝融合,还能最大程度减少错误的内容幻觉。

2. 实验设置

为了进行去除操作,我们将其与端到端图像修复模型MAT和LaMa、基于扩散模型的SD-Inpaint以及FLUX-Inpainting进行比较,以确保进行公平的主干网络比较。此外,我们还纳入了近期的开源目标去除方法CLIPAway、PowerPaint和FreeCompose。实验在两个基准数据集上进行:一个是我们收集的包含300个真实世界目标去除案例的测试集,将其调整大小为进行测试;另一个是RORD数据集,包含1000对原始分辨率为的样本,这两个数据集都提供了通过物理方式去除目标后的真实标签。我们报告了峰值信噪比(PSNR)、结构相似性指数(SSIM)、感知相似性指标(弗雷歇 inception 距离(FID)、相关矩阵匹配距离(CMMD)、学习感知图像块相似度(LPIPS))以及特定于目标去除的指标,包括ReMOVE和我们提出的CFD分数。

在对象插入方面,我们将其与示例绘画(Paint-by-Example,PbE)、对象拼接(ObjectStitch)、自由合成(FreeCompose)、任意门(AnyDoor)和印记(IMPRINT)进行比较。由于对象拼接(ObjectStitch)和印记(IMPRINT)没有公开实现,我们从作者那里获取了官方代码、检查点和测试集。我们的插入基准测试由565个分辨率为的样本组成,将印记(IMPRINT)测试集与我们采集的真实案例相结合。每个样本包括一张背景图像、一张参考对象图像和一个二值掩码。参考图像使用雕刻套件(CarveKit)进行预处理以去除背景。为了评估身份一致性,我们使用可爱特征(CUTE)、剪辑图像(CLIP-I)、深度不变特征网络v2(DINOv2)和梦境相似度(DreamSim)来测量插入对象与其参考对象之间的特征相似度,其中梦境相似度(DreamSim)更符合人类感知。除了局部身份保留外,我们使用无参考指标:多尺度图像质量评估(MUSIQ)和多尺度注意力网络图像质量评估(MANIQA)来评估整体图像质量。

表2. 1000样本的真实对象替换检测(RORD)测试集上的定量结果。

为保证公平性,我们在所有基线方法中使用相同的图像 - 掩码对,并采用官方实现及其默认超参数,如推理步数。对于OmniPaint(全功能绘画),我们在推理过程中采用欧拉离散调度器,并在主要的定量和定性实验中将推理步数设置为28。附录中提供了更多实现细节。

3. 目标移除性能评估

我们在真实目标移除任务上对OmniPaint(全功能绘画)进行评估,并与图像修复和目标移除方法进行比较。如表1和表2所示,在所有数据集上,OmniPaint(全功能绘画)始终优于先前的方法,在保持高PSNR、SSIM和ReMOVE分数的同时,实现了最低的FID、CMMD、LPIPS和CFD。这些结果凸显了它在移除目标的同时保留结构和感知保真度的能力,能有效抑制目标幻觉。

表3. 目标插入方法的定量比较。

图6对具有挑战性的真实场景案例进行了直观对比。在第一行中,OmniPaint成功移除了物体及其玻璃反射,而所有基线方法均未能做到。第二行突出显示了OmniPaint在自然光照下消除阴影的能力,其他方法会留下残留痕迹。第三行展示了在遮挡场景下的强大修复能力,确保背景无缝重建且无失真。

通过有效处理反射、阴影和遮挡问题,OmniPaint在生成连贯且逼真的物体移除结果方面超越了先前的方法。

4. 物体插入性能评估

我们在物体插入任务上对OmniPaint进行评估,并将其与先进方法进行比较。如表3所示,OmniPaint在所有物体身份保留指标上均取得了最高分,这些指标包括CLIP - I、DINOv2、CUTE和DreamSim,这表明它与参考物体的匹配度更高。此外,根据MUSIQ和MANIQA的评估,它在整体图像质量方面优于所有基线方法,这意味着它具有更好的感知真实感和无缝融合效果。

图5展示了可视化对比结果。给定一个带掩码的输入和一个参考对象,OmniPaint生成的插入对象在形状、纹理和光照一致性方面更加准确。相比之下,其他方法存在身份失真、阴影处理不当或明显的融合伪影等问题。值得注意的是,OmniPaint在保留精细细节的同时,确保插入对象与场景几何结构和光照自然融合。通过保持高保真的身份保留并提高感知质量,OmniPaint为逼真的对象插入设定了新的标准。

5. 超参数分析

循环损失权重。我们通过比较图7(b)中不同值的结果,分析了循环损失权重对对象插入的影响。较低的值(例如)会导致物理效果合成较弱,因为未配对的训练数据(COCO-Stuff和HQSeg)缺乏诸如阴影和反射等对象效果的分割信息。

图片

  

图7. 推理步骤和循环损失权重的影响。(a) 不同神经函数评估(NFE)下的移除(上)和插入(下)结果。(b) 不同循环损失权重  下的插入结果,OmniPaint默认权重为 。

这限制了模型学习效果生成的能力,因为插入训练依赖于已经包含这些效果的输入图像。增加  可以增强效果合成。在  时,OmniPaint达到了最佳平衡,能够有效地从未配对数据中学习,同时保持逼真的效果合成。然而,将  进一步增加到3.0会过度放松效果生成,导致出现如过度夸张的阴影等不自然的伪影。

神经功能评估。如图7(a)所示,我们分析了神经功能评估(NFE)对物体移除和插入的影响。较低的NFE值,如1或4,会导致明显的模糊,尤其是在遮罩区域内。有趣的是,对于移除任务,即使是也能有效消除物体及其相关影响。在时,物体被干净地移除,没有残留痕迹,而插入的物体则具有高保真度,呈现出逼真的阴影和反射效果。将NFE进一步提高到28仅能获得微小的提升,这表明收益递减。尽管如此,我们将NFE = 28设为默认值,以确保最佳的视觉质量。

总结

我们推出了用于面向对象图像编辑的OmniPaint,它将对象移除和插入重新概念化为相互依存的任务。通过利用预训练的扩散先验和一个渐进式训练流程(包括初始的配对样本优化以及随后通过CycleFlow进行的大规模非配对细化),OmniPaint能够在保留场景几何结构和其他固有属性的同时,实现精确的前景消除和无缝的对象融合。大量实验表明,OmniPaint能有效抑制对象幻觉并减少伪影,新颖的CFD指标为上下文一致性提供了一种强大的、无需参考的评估方法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值