SSR-Encoder: Encoding Selective Subject Representation for Subject-Driven Generation

  1. 问题引入
  • 针对的还是subject driven image generation的问题,针对的问题是作为reference的图片是subject和多种其他object以及背景的混合,本文不需要test time finetuning,主要贡献点在于SSR encoder来得到更加准确的subject embedding,SSR encoder包括token-to-patch来对齐query(mask or text)和image patches以及一个detail preserving subject encoder来提取subject特征;
  1. methods
    在这里插入图片描述
  • image I I I+query q q q(mask or text),SSR-encoder输出multiscale subject embedding c s c_s cs,之后作为条件参与训练的方式和ip-adapter一样,text embedding c t c_t ct不变;
  • Selective Subject Representation Encoder:SSR-encoder:token-to-Patch Aligner + Detail-Preserving Subject Encoder
  • Token-to-patch aligner:对齐image patch feature和text token feature,对于 I , q I,q I,q,使用clip得到对应的query embedding z q ∈ R N q × D q z_q\in\mathbb{R}^{N_q\times D_q} zqRNq×Dq和image embedding z 0 ∈ R N i × D i z_0\in\mathbb{R}^{N_i\times D_i} z0RNi×Di,之后使用可训练的project layer W Q , W K W_Q,W_K WQ,WK得到 Q , K Q,K Q,K,计算对应的token-to-patch attn map A t 2 p = S o f t m a x ( Q K T d ) A_{t2p} = Softmax(\frac{QK^T}{\sqrt{d}}) At2p=Softmax(d QKT),这个map起到了region selection的作用,所以本文的方法天然的支持以mask作为query条件;
  • Detail-preserving subject encoder:之后使用clip提取image feature,与之前方法只提取最后一层不同,本文提取了multi scale的特征(本文设定为k) z I = { z k } k = 0 K z_I = \{z_k\}^K_{k=0} zI={zk}k=0K,结合使用 k k k个projection layer W k V W_k^V WkV得到 k k k V V V,结合 A t 2 p A_{t2p} At2p得到作为条件的embedding c s , c s k = A t 2 p V k T c_s,c_s^k = A_{t2p}V_k^T cscsk=At2pVkT,通过将 k k k c s k c_s^k cskconcat起来得到;
  • Subject Conditioned Generation:和ip-adapter类似;
  • 在训练的时候,增加了一项损失,监督的目标是 c s k c_s^k csk的平均值和query text embedding的cosine similarity;
  1. 实验
  • 使用laion 5b subsets with aesthetic score > 6,使用了blip2重新做了caption,总共一千万的数据量,5000用作评测;
  • 训练的时候输入是512*512,处理方式是resize + centercrop;
  • metrics:和subject的一致性,和text的一致性以及美学分数;
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值