FastComposer: Tuning-Free Multi-subject Image Generation with Localized Attention

尔呦

于 2024-10-11 17:07:14 发布

阅读量905

点赞数 17

分类专栏： paper reading 文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_44994838/article/details/142812134

版权

paper reading 专栏收录该内容

22 篇文章

订阅专栏

问题引入

针对的问题是subject driven image generation这个任务,render一个在训练中没有出现过的subject，提出这个任务当前面临的两个困难，1）一个是一些方法在面对一个新的subject的时候需要额外的微调；此外2）多subject的生成会存在多subject blend的问题；
针对第一个问题，通过扩展原本的文生图模型可以接受图片作为条件，针对第二个问题提出了cross attention localization supervision；
在直接使用subkect augmented conditioning的时候会导致subject overfitting，导致生成过程忽略text条件，所以本文使用了delayed subject conditioning，也就是在denoising的早期的step只使用text条件来生成图片的布局，之后使用subject aygmented conditioning来refine subject appearence;

methods

扩展sd接受图片作为条件：Augmenting Text Representation with Subject Embedding：给出text prompt $\{w_1,w_2,\cdots,w_n\}$ ，subject的图片： $\{s_1, s_2,\cdots,s_m\}$ ，以及这 $m$ 张图片分别对应到文字的indice： $\{i_1,i_2,\cdots,i_m\},i_j\in 1,2,\cdots,n$ ，首先将text和subject image通过clip得到对应的embedding，之后将text的embedding和对应的image的embedding进行concat送到MLP中得到最终作为条件的embedding；在训练的时候同时训练image encoder,MLP和Unet，在将image送到clip image encoder之前将和subject无关的背景替换成了随机的噪声；
应对multi subject generation: 之前有工作显示模型的cross attn部分控制了生成图片的布局，cross attn map中的值对应着像素位置和text的响应关系，现在模型在生成的时候会产生blend的问题，就是因为一个像素位置可以和所有的subject augment text embedding进行交互，所以提出在训练的时候对cross attn map进行监督来解决blend的问题，设定cross attn map $A\in [0,1]^{(h\times w)\times n}$ ，其中每一个 $A [i, j, k]$ 显示的是像素位置 $i, j$ 和condition embedding $k$ 之间的关系，现在有对应 $m$ 个subject的mask $\{M_1,M_2,\cdots,M_m\}$ , $\{i_1,i_2,\cdots,i_m\},i_j\in 1,2,\cdots,n$ 表示subject对应的text下标， $A_i = A[:,:,i]\in[0,1]^{(h\times w)}$ 表示下标为 $i$ 的token对应的attn map，监督的目标是 $A_{i_j}$ 和 $m_j$ 相似，使用的损失是 $L_{loc} = \frac{1}{m}\sum_{j = 1}^m(mean(A_{i_j}[\overline{m}_j]) - mean(A_{i_j}[m_j]))$ ;
应对使用aumented embedding导致text的条件被忽略的问题，使用Delayed Subject Conditioning in Iterative Denoising：在早期的step使用text embedding，后面再使用augmented text embedding

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。