抛弃UNet，首个基于DiT的图像编辑框架！DiT4Edit：多尺寸编辑质量更优

本文链接：https://blog.youkuaiyun.com/AIGCer/article/details/143699946

文章链接：https://arxiv.org/pdf/2411.03286
工程链接：https://github.com/fkyyyy/DiT4Edit

亮点直击

基于基于Transformer的扩散模型在图像编辑中的优势，提出了DiT4Edit，第一个不需要调优的基于扩散Transformer（DiT）的图像编辑框架。

为了适应基于Transformer的去噪计算机制，首先提出了统一的注意力控制机制，以实现图像编辑。引入了DPM-Solver反演和图像块合并策略，以减少推理时间。

大量定性和定量的实验结果证明了DiT4Edit在对象编辑、风格编辑和形状感知编辑方面的优越性能，适用于各种图像尺寸，包括512 × 512、1024 × 1024和1024 × 2048。

总结速览

解决的问题：
现有的基于UNet的高分辨率图像编辑方法在实现形状感知的对象编辑方面仍存在不足。相比之下，Diffusion Transformers (DiT) 能更有效地捕捉图像块之间的长程依赖关系，但目前在图像编辑领域的应用仍较少。

提出的方案：
本文提出了基于Diffusion Transformers的首个图像编辑框架——DiT4Edit。DiT4Edit采用DPM-Solver反演算法来获取反演隐变量，与传统UNet框架常用的DDIM反演算法相比，显著减少了迭代步数。此外，设计了适用于Transformer计算流的统一注意力控制和图像块合并机制。

应用的技术：

Diffusion Transformers (DiT) 框架
DPM-Solver反演算法
统一注意力控制和图像块合并机制

达到的效果：
DiT4Edit在编辑质量和速度上优于UNet框架，尤其在高分辨率和任意尺寸的图像编辑中表现突出。大量实验验证了该框架在各种编辑场景中的强大性能，展示了Diffusion Transformers在支持图像编辑方面的潜力。

方法

本文提出的框架旨在基于Diffusion Transformer实现各种尺寸图像的高质量编辑。本文的方法是基于预训练的文本到图像Transformer扩散模型（例如，）的首个编辑策略。通过我们的方法，用户可以通过提供目标提示，获得比现有的基于UNet的方法更好的编辑结果。本节首先介绍隐空间扩散模型和DPM反演。然后阐明基于Transformer的去噪在图像编辑任务中的优越性。最后讨论编辑方法的实现细节。

基础知识：隐空间扩散模型

隐空间扩散模型（Latent Diffusion Models，LDM） 提出了在隐空间Z中进行去噪处理的图像生成方法。具体而言，它使用编码器E将像素图像x编码为低分辨率隐空间变量z = E(x)。在训练过程中，模型通过去除人为噪声，优化去噪UNet ，该过程以文本提示embedding y和当前图像样本为条件，其中是步下的带噪样本：