IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models

尔呦

已于 2024-07-02 16:47:35 修改

阅读量1k

点赞数 11

分类专栏： video generation 文章标签：深度学习

于 2024-06-20 18:01:58 首次发布

版权

23 篇文章

订阅专栏

问题引入

现在需要image作为prompt的模型，但是当前直接从基础模型进行finetune的方法计算量大且当基础模型更换之后需要重新进行训练，且和controlnet等模型不相容；
sd image variation和stable unclip使用clip image encoder得到的image embedding代替原来的text prompt，需要额外的大量训练，以及训练之后的模型不再具备文本为条件的能力，且训练之后的模型没有办法直接迁移到以base模型为基础的其他模型，且和controlnet不匹配；
本文提出IP-Adapter来使得基础的文生图模型具有以image为生成条件的能力；方法的核心是解耦的cross attention，将text和image的cross attention层分开；
优点：不需要finetune原始diffusion参数，需训练参数量小，可以适配相同基础模型微调出的模型，可以同时支持image和text prompt，可以和controlnet同时使用；

在这里插入图片描述

IP-Adapter包含两个部分，image encoder和decoupled cross-attention module；
image encoder：CLIP image encoder，在训练的时候参数是冻结的；除此之外还有一个projection layer，将image embedding映射到 $N\times d$ ，N是4，d和text feature相同；
Decoupled Cross-Attention：text的cross attention计算： $Softmax(\frac{QK^T}{\sqrt{d}})V,Q = ZW_q,K = c_tW_k,V = c_tW_v$ ，其中 $Z, Z^{'}$ 分别是输入和输出的feature， $c_t$ 是text经过text encoder的输出，之前的方法将image的feature和text feature进行concat进行cross attention，但是本文将text和image分开，新增了cross attention module，image的cross attention， $Softmax(\frac{Q(K')^T}{\sqrt{d}})V',Q = ZW_q,K' = c_iW_k',V' = c_iW_v'$ ，其中 $W_q$ 是共用的，所以新增的module只有 $W_k',W_v'$ ，只有这两部分参数和projection network是可以训练的，且用 $W_k,W_v$ 进行初始化加速训练，最后的输出结果是text和image cross attention结果的加和 $Z^{new} = Z'+Z''$ ;