论文:《StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing》
代码:https://github.com/sen-mao/StyleDiffusionhttps://github.com/sen-mao/StyleDiffusion
问题背景
已有一些工作利用预训练扩散模型进行真实图像的编辑。这些方法通常通过微调模型或在预训练模型的潜在空间中对图像进行反演。然而,它们面临两个主要问题:(1)在选定区域的编辑结果不理想(图 1. 第一行),同时在未选定区域出现意外变化(图 1. 第二行);(2)需要精心设计文本提示,确保文本提示涵盖输入图像中的所有元素(图 2. 第一行)。


为了解决这些问题,我们提出了两个主要改进:(1)仅优化cross-attention层中value线性层的输入,已具有足够强的能力以重建真实图像;(2)提出了注意力正则化方法,以保持重建和编辑后的物体注意力图,从而实现精确的编辑,而不会产生显著的结构性变化。此外,我们还通过P2P 使用CFG时的无条件分支改进了编辑能力,提出P2Plus。
对注意力机制的分析(重要观察)
为了解决提到的挑战,我们首先对扩散模型SD采样过程中的注意力机制进行了分析。我们观察到,key主导输出图像的结构(即"where"),而value决定了物体的