作者认为如果某个内容未能如期生成,那么应该去提高相应的Cross-Attention值。但跟P2P不同的是,Attend-and-Excite建立某个评价损失函数并反向传播梯度来刺激更新latent,而非直接通过加权来强制增大对应值。需要人为选定几个文本token做为增强目标,并且计算它们对应的平均Cross-Attention。这里有个forward guidance和backward guidance的区别,首先在生成的前向过程中进行干涉,即前向指导,需要基于梯度做更新,即反向指导。https://zhuanlan.zhihu.com/p/666445024https://zhuanlan.zhihu.com/p/666445024</
Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image Diffusion Models
于 2024-10-31 19:26:39 首次发布