Null-text Inversion for Editing Real Images using Guided Diffusion Models

  1. 问题引入
  • 针对的是图像编辑的问题,图像编辑需要首先invert原图到pretrained model’s domain,本文提出的就是精确inversion的方法,因为之前ddim在使用CFG的inversion上面表现不好;
  • 方法由两部分组成:pivotal inversion for diffusion models(ddim inversion提供下一步优化的起点) + null text optimization(优化CFG使用的null text embedding),因为模型主体参数没有改变,所以可以支持prompt-based editing这个任务;
  1. methods
    在这里插入图片描述
  • 定义初始图片 I I I和编辑后图片 I ∗ I^* I,原始prompt和编辑后prompt P , P ∗ P,P^* P,P
  • pivotal inversion: CFG放大了ddim inversion的累积误差,导致inverse不准,首先使用ddim+guidance scale=1进行inverse得到初始trajectory z T ∗ , ⋯   , z 0 ∗ z_T^*,\cdots,z_0^* zT,,z0,其中 z 0 ∗ = z 0 z_0^*=z_0 z0=z0
  • null text optimization:将null text embedding替换成了optimized one,也就是 { ∅ } t = 1 T \{\empty\}_{t = 1}^T {}t=1T,并且 ∅ t \empty_t t使用上一步的 ∅ t + 1 \empty_{t + 1} t+1来进行初始化;
  • t = T , ⋯   , 1 t=T,\cdots,1 t=T,,1的顺序进行优化,每一个step优化 N N N次,初始化 z T ‾ = z T ∗ \overline{z_T}=z_T^* zT=zT,guidance scale设置为7.5,训练的目标是 m i n ∅ t ∣ ∣ z t − 1 ∗ − z t − 1 ( z t ‾ , ∅ t , C ) ∣ ∣ 2 2 min_{\empty_t}||z^*_{t - 1} - z_{t - 1}(\overline{z_t},\empty_t,C)||_2^2 mint∣∣zt1zt1(zt,t,C)22
  • 算法总结如下:在这里插入图片描述
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值