Imagic: Text-Based Real Image Editing with Diffusion Models

尔呦

于 2024-10-21 21:45:55 发布

阅读量1k

点赞数 23

分类专栏： paper reading 文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_44994838/article/details/143133539

版权

paper reading 专栏收录该内容

22 篇文章

订阅专栏

问题引入

针对的是text based image editing问题，可以解决non rigid edit，即可以改变图片中object的posture；
模型仅需要原图以及编辑的text，不需要mask，也是在T2I diffusion model上实现的；
首先optimize text embedding，之后使用优化后的text embedding来微调整个模型，最后将优化之后的text embedding和目标text的embedding进行插值得到一个结合原图以及编辑prompt的embedding，然后进行生成得到想要的结果；

methods

Text embedding optimization：首先获取到编辑后text的embedding $e_{tgt}$ ，之后只是训练embedding部分，冻结diffusion model主体，训练很少的步数，以使得优化之后的embedding $e_{opt}$ 没有发生很大的变化，便于第三步的插值操作；
Model fine-tuning：因为第一步只训练了很少的步数，所以生成的图片不能和原图完全一致，所以进行了全模型的训练(优化之后的embedding冻结)，此时使用的是 $e_{opt}$ ，但是在finetune后接的超分模型的时候使用的是 $e_{tgt}$ ；
Text embedding interpolation：进行 $e_{tgt},e_{opt}$ 之间的插值： $\overline{e} = \eta\cdot e_{tgt} + (1 - \eta)\cdot e_{opt}$ ，以这个作为最后的embedding来生成，后接的超分模型还是使用 $e_{tgt}$

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。