CVMJ 2024 | StyleDiffusion: 基于Prompt嵌入的真实图像反演和文本编辑

论文:《StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing

代码:https://github.com/sen-mao/StyleDiffusion​icon-default.png?t=O83Ahttps://github.com/sen-mao/StyleDiffusion​

问题背景

已有一些工作利用预训练扩散模型进行真实图像的编辑。这些方法通常通过微调模型或在预训练模型的潜在空间中对图像进行反演。然而,它们面临两个主要问题:(1)在选定区域的编辑结果不理想(图 1. 第一行),同时在未选定区域出现意外变化(图 1. 第二行);(2)需要精心设计文本提示,确保文本提示涵盖输入图像中的所有元素(图 2. 第一行)。

标图 1. (1) 已有方法(例如NullText Inversion),选定区域的编辑结果不理想(第一行第四列),未选定区域出现意外变化(第二行第四列)题
图 2.(2)已有方法(例如NullText Inversion),需要精心设计文本提示(第一行),确保文本提示涵盖输入图像中的所有元素,这样才能确保编辑的稳定性

为了解决这些问题,我们提出了两个主要改进:(1)仅优化cross-attention层中value线性层的输入,已具有足够强的能力以重建真实图像;(2)提出了注意力正则化方法,以保持重建和编辑后的物体注意力图,从而实现精确的编辑,而不会产生显著的结构性变化。此外,我们还通过P2P 使用CFG时的无条件分支改进了编辑能力,提出P2Plus。 


对注意力机制的分析(重要观察)

为了解决提到的挑战,我们首先对扩散模型SD采样过程中的注意力机制进行了分析。我们观察到,key主导输出图像的结构(即"where"),而value决定了物体的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值