CVPR2022：Blended Diffusion for Text-driven Editing of Natural Images

最新推荐文章于 2025-01-07 17:10:40 发布

原创

最新推荐文章于 2025-01-07 17:10:40 发布 · 1.4k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉

本文介绍了一种基于预训练模型的文本引导的图像编辑技术BlendedDiffusion，它能在限定区域编辑图片并保持背景一致性，利用扩散过程和CLIP指导进行区域调整。文章还提到与GLIDE的比较及后续工作的LatentBlendedDiffusion。

CVPR2022：Blended Diffusion for Text-driven Editing of Natural Images

Paper:https://openaccess.thecvf.com/content/CVPR2022/html/Avrahami_Blended_Diffusion_for_Text-Driven_Editing_of_Natural_Images_CVPR_2022_paper.html

Github:https://github.com/omriav/blended-diffusion

0. Conclusion

首先这篇文章我最开始看的时候有点误解了，当时没了解Guided Diffusion，以为每一步得到的损失是用来优化扩散模型UNet参数的；组会讨论后觉得这篇工作的结果在生成的区域始终有噪声，看代码之后才发现这篇工作其实是不需要训练的，基于OpenAI的Guided Diffusion预训练模型，所有的损失都作为扩散模型调整均值的一种指导；当时与这篇工作同期有GLIDE，效果明显更好，能发出来只能说是点子新吧。
后来调代码，越发觉得这篇文章没工作量，结果的瑕疵也没做优化；之后偶然发现这仨作者在六月左右已经发了Latent Blended Diffusion，有兴趣可以看看。

1. Motivation

真实图像的编辑工作主流是基于GAN模型，通过GAN Inversion实现；

首先本身基于GAN的方法，通常在训练的时候就将图像限制在了某个特定的domain中；

其次GAN　Inversion的实验中表明，此方法是在重建准确性和编辑性之间需要做出取舍。

2. Goal

将编辑操作限制在某个固定区域，实现对图片的编辑，而且未编辑的部分应该与原图尽可能保持一致。

3. Contribution

１）提出了第一个使用文本驱动的，基于区域编辑真实的、多样的图像的方法：

２）保证了未改变的区域被完美保存；

4. Method

输入：给定图像ｘ，引导的文本提示ｄ，二进制掩码ｍ

输出：修改的图像 $x^\hat{x}$

DDPM

从 $X0→XTX_{0} \rightarrow X_{T}$ ，每一步可通过加噪获得，通过递推可得下式：
$q(x_t|x_{0})=\mathcal{N}(\sqrt{\bar{\alpha}_t}x_{0},(1-\bar{\alpha}_t)\mathbf{I})$
即：
$x_t = \sqrt{\bar{\alpha}_t}x_0+\sqrt{1-\bar{\alpha}_t}\varepsilon$

Extending augmentations

在扩散过程中，由 $D_{CLIP}$ 损失指导的在图像像素上进行的所谓优化，可能会使得评分降低，但并不会在图像上产生高级的语义变化。

作者发现使用简单的数据增强技术便能减缓这个问题，在扩散过程的每个步骤，并不直接对于从 $x_t$ 估计得到的 $x^0\hat{x}_0$

最低0.47元/天解锁文章