即插即用,无缝集成各种模型,港科大&蚂蚁等发布Edicho:图像编辑一致性最新成果!

文章链接:https://arxiv.org/pdf/2412.21079
项目链接:https://ezioby.github.io/edicho/

亮点直击

  • 显式对应性引导一致性编辑:通过将显式图像对应性融入扩散模型的去噪过程,改进自注意力机制与分类器自由引导(CFG),在保持高质量的同时显著提升编辑一致性。

  • 融合无条件嵌入特征:受 NULL-text Inversion 技术启发,提出融合无条件嵌入特征的方法,进一步增强一致性效果,实现更精细的编辑控制。

  • 广泛适用性与优越性能:方法具有训练无关和即插即用特性,适配多种扩散模型与任务场景。通过实验验证,展现出在定量指标与定性评估上的卓越性能。

总结速览

解决的问题
跨图像一致性编辑是计算机视觉和图像处理领域中的重要挑战,尤其是面对多样的姿态、光照条件和拍摄环境时。这种一致性编辑广泛应用于产品展示、个性化内容创作以及主题活动等场景。然而,现有方法在处理多图像一致性时常表现出不稳定性或失真,难以满足实际需求。

提出的方案
本文提出了一种基于扩散模型的训练无关解决方案 Edicho。其核心设计理念是通过显式图像对应性引导编辑过程,避免传统隐式对应性方法的局限性。包括:

  • 注意力操作模块:增强注意力机制,通过图像之间的对应性引导特征传递。

  • 优化的分类器自由引导(CFG)去噪策略:结合预计算的对应性,在编辑过程中保持高质量和一致性。

应用的技术

  • 利用扩散模型的中间特征与生成图像空间的对齐特性,通过显式对应性指导编辑。

  • 在注意力机制中对查询特征进行变换,从源图像借用相关特征,确保编辑一致性。

  • 修改分类器自由引导的计算方式,融合无条件嵌入特征,提升一致性和图像质量。

  • 特别设计处理真实世界场景图像的能力,保证方法对光照、背景、视角和遮挡变化的鲁棒性。

达到的效果

  • 一致性提升:实现了多图像间的一致性编辑,编辑结果在各种场景下保持高度协调。

  • 通用性:作为推理时的算法,可与大多数基于扩散的编辑方法(如 ControlNet 和 BrushNet)无缝兼容。

  • 实用性:适用于个性化内容创作、3D重建以及一致性纹理应用,扩展了编辑工具的适用范围。

  • 高效性:无需训练数据,具备即插即用特性,能够直接应用于实际任务,代码公开以支持进一步研究。

方法

本文专注于一致性图像编辑任务,即同时对多张图像进行操作以实现一致且统一的视觉效果。首先利用现有的视觉理解方法提取图像对之间的显式语义对应性。再借助构建于 Stable Diffusion 之上的预训练编辑模型,通过这些预计算的显式对应性指导去噪过程,从而确保编辑的一致性。

本节首先回顾扩散模型的一些基本概念,随后讨论显式对应性指导的去噪过程,该过程包括两个层次:注意力特征层和噪声隐空间变量层。需要注意的是,这些特征操作仅应用于

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值