CVPR2022:Blended Diffusion for Text-driven Editing of Natural Images
Paper:https://openaccess.thecvf.com/content/CVPR2022/html/Avrahami_Blended_Diffusion_for_Text-Driven_Editing_of_Natural_Images_CVPR_2022_paper.html
Github:https://github.com/omriav/blended-diffusion
0. Conclusion
首先这篇文章我最开始看的时候有点误解了,当时没了解Guided Diffusion,以为每一步得到的损失是用来优化扩散模型UNet参数的;组会讨论后觉得这篇工作的结果在生成的区域始终有噪声,看代码之后才发现这篇工作其实是不需要训练的,基于OpenAI的Guided Diffusion预训练模型,所有的损失都作为扩散模型调整均值的一种指导;当时与这篇工作同期有GLIDE,效果明显更好,能发出来只能说是点子新吧。
后来调代码,越发觉得这篇文章没工作量,结果的瑕疵也没做优化;之后偶然发现这仨作者在六月左右已经发了Latent Blended Diffusion,有兴趣可以看看。
1. Motivation
真实图像的编辑工作主流是基于GAN模型,通过GAN Inversion实现;
首先本身基于GAN的方法,通常在训练的时候就将图像限制在了某个特定的domain中;
其次GAN Inversion的实验中表明,此方法是在重建准确性和编辑性之间需要做出取舍。
2. Goal
将编辑操作限制在某个固定区域,实现对图片的编辑,而且未编辑的部分应该与原图尽可能保持一致。
3. Contribution
1)提出了第一个使用文本驱动的,基于区域编辑真实的、多样的图像的方法:
2)保证了未改变的区域被完美保存;
4. Method
输入:给定图像x,引导的文本提示d,二进制掩码m
输出:修改的图像x^\hat{x}x^
DDPM

从X0→XTX_{0} \rightarrow X_{T}X0→XT,每一步可通过加噪获得,通过递推可得下式:
q(xt∣x0)=N(αˉtx0,(1−αˉt)I) q(x_t|x_{0})=\mathcal{N}(\sqrt{\bar{\alpha}_t}x_{0},(1-\bar{\alpha}_t)\mathbf{I}) q(xt∣x0)=N(αˉtx0,(1−αˉt)I)
即:
xt=αˉtx0+1−αˉtε x_t = \sqrt{\bar{\alpha}_t}x_0+\sqrt{1-\bar{\alpha}_t}\varepsilon xt=αˉtx0+1−αˉtε
Extending augmentations
在扩散过程中,由DCLIPD_{CLIP}DCLIP损失指导的在图像像素上进行的所谓优化,可能会使得评分降低,但并不会在图像上产生高级的语义变化。
作者发现使用简单的数据增强技术便能减缓这个问题,在扩散过程的每个步骤,并不直接对于从xtx_txt估计得到的x^0\hat{x}_0x^0

本文介绍了一种基于预训练模型的文本引导的图像编辑技术BlendedDiffusion,它能在限定区域编辑图片并保持背景一致性,利用扩散过程和CLIP指导进行区域调整。文章还提到与GLIDE的比较及后续工作的LatentBlendedDiffusion。
最低0.47元/天 解锁文章
2230

被折叠的 条评论
为什么被折叠?



