罗切斯特大学提出OmniPaint：突破性图像编辑框架，实现高精度对象移除与无缝插入！

最新推荐文章于 2025-11-25 12:11:01 发布

原创

最新推荐文章于 2025-11-25 12:11:01 发布 · 1.1k 阅读

23 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #深度学习 #AI

🌐 社群导航

🔗 点击加入➡️【AIGC/LLM/MLLM/3D/自动驾驶】技术交流群

🔗 点击加入➡️【2-3月CCF投稿】交流群

最新论文解读系列

论文名：OmniPaint: Mastering Object-Oriented Editing via Disentangled Insertion-Removal Inpainting

论文链接：https://arxiv.org/pdf/2503.08677

项目链接：https://github.com/yeates/OmniPaint-Page

导读

基于扩散的生成模型彻底改变了面向对象的图像编辑方式，然而，由于物理效果的复杂相互作用以及配对训练数据不足等挑战，它们在实际的对象移除和插入应用中仍受到阻碍。在这项工作中，我们推出了OmniPaint，这是一个统一的框架，它将对象移除和插入重新概念化为相互依存的过程，而非孤立的任务。OmniPaint利用预训练的扩散先验，结合一个渐进式训练流程（包括初始的配对样本优化以及随后通过CycleFlow进行的大规模非配对细化），在精确消除前景和无缝插入对象的同时，还能忠实地保留场景的几何结构和固有属性。此外，我们新颖的CFD指标为上下文一致性和对象幻觉提供了一种强大的、无需参考的评估方法，为高保真图像编辑树立了新的基准。

简介

面向对象的图像编辑已从简单的像素级调整发展到复杂的场景操作任务，包括对象移除和插入。经典的图像对象移除/插入方法遵循两条截然不同且无交集的技术路线，如对象协调和图像补全。基于大型扩散的生成模型的最新进展拓宽了面向对象编辑的视野，不仅能够对掩膜区域进行高保真修复，还能将新对象创造性地无缝合成到现有图像中。这些模型还允许通过文本提示或参考图像手动操作对象的属性和外观，在视觉内容修改和创作方面展现出独特的产业价值。

图2. 对象移除的CFD指标评估可视化。分割结果是使用经过细化的SAM获得的，紫色掩码表示背景，橙色掩码表示完全在原始掩码内的片段，未加掩码的表示超出原始掩码的部分。请注意，橙色掩码区域对应于幻觉对象。ReMOV得分越高越好，而CFD得分越低越好。在这些情况下，ReMOVE得分过于接近，无法表明移除是否成功，而CFD得分能提供更清晰的区分。

最低0.47元/天解锁文章