Blended Diffusion for Text-driven Editing of Natural Images

最新推荐文章于 2025-06-04 23:56:57 发布

尔呦

最新推荐文章于 2025-06-04 23:56:57 发布

阅读量639

点赞数 23

分类专栏： paper reading 文章标签：深度学习

本文链接：https://blog.youkuaiyun.com/weixin_44994838/article/details/143052968

版权

paper reading 专栏收录该内容

22 篇文章

订阅专栏

问题引入

针对的region based image edit问题，且编辑是由text引导的；
问题定义：给出image $x$ ，guided text prompt $d$ ，binary mask $m$ ，目标是得到编辑之后的图片 $\hat{x}$ ，其中 $\hat{x}\odot m$ 和text相一致，而 $x\odot (1-m)\approx \hat{x}\odot (1-m)$ ， $\odot$ 表示element wise manipulation操作；

methods

Local CLIP-guided diffusion：借鉴的是classifier guidance方法，使用CLIP来引导模型生成mask区域满足text编辑指令的结果，但是原始classifier guidance里面是专门针对noisy图片训练了classifier，此处没有如此操作，而是在去噪的每一步预估 $x_0$ ，通过每一步预测出的噪声 $\epsilon_\theta(x_t,t)$ ，可以得到 $\hat{x}_0 = \frac{x_t}{\sqrt{\overline{\alpha}_t}} - \frac{\sqrt{1 - \overline{\alpha}_t}\epsilon_\theta(x_t,t)}{\sqrt{\overline{\alpha}_t}}$ ，得到 $\hat{x}_0$ 之后通过CLIP计算 $D_{CLIP}(x,d,m) = D_c(CLIP_{img}(x\odot m),CLIP_{txt}(d))$ ，也就是将 $\hat{x}_0$ 和text $d$ 都送到CLIP当中之后计算两者之间的cosine距离；除了对mask区域的text约束以外，mask以外的区域还需要满足和原图相同，所以添加一项约束 $D_{bg}(x_1,x_2,m) = d(x_1\odot(1-m),x_2\odot(1-m)),d(x_1,x_2) = \frac{1}{2}(MSE(x_1,x_2) + LPIPS(x_1,x_2))$ ，最终的总约束项是两者的加权和 $D_{CLIP}(\hat{x}_0,d,m) + \lambda D_{bg}(x,\hat{x}_0,m)$ ，整体算法为：
Text-driven blended diffusion：仅靠上述的约束是不够的，前背景都不能达到满意的效果，所以在denoise的过程中不断将原图加噪的结果(background)和去噪的结果(CLIP引导的)相融合，也就是对于step $t$ ，加入CLIP的引导得到 $x_{t - 1,fg}$ ，同时对原图进行加噪得到 $x_{t - 1,bg}$ ，之后进行混合 $x_{t - 1} = x_{t - 1,fg}\odot m + x_{t - 1,bg}\odot(1-m)$ ，此时CLIP的引导不包含约束背景的那一项；
Extending augmentations：还会存在一个问题，就是CLIP引导的时候loss项减小了，但是结果并不满足要求，解决办法就是在去噪过程中加入增广，假设当前step获取到的 $\hat{x}_0$ ，不直接使用 $\hat{x}_0$ 计算loss进行引导，而是对其进行增广得到projectively transformed copies，之后使用增广后的结果计算loss来引导模型；