Taming Encoder for Zero Fine-tuning Image Customization with Text-to-Image Diffusion Models

最新推荐文章于 2024-11-15 11:18:03 发布

尔呦

最新推荐文章于 2024-11-15 11:18:03 发布

阅读量412

点赞数 3

分类专栏： paper reading 文章标签：深度学习

版权

22 篇文章

订阅专栏

针对的任务是subject driven image generation，面对的问题是当前的方法大多需要test finetuing，也就是没有一个新的subject都需要进行新的finetune操作，本文不需要；
除了让模型增加image encoder得到的image embedding作为条件以外，还增加了object identity preservation loss来进行训练

整个模型包含两个部分，文生图的基础模型以及一个image encoder $I$ ，本文为clip image encoder，假定reference图片为 $x$ ，text为 $c$ ，text encoder $T$ ，本文使用的是T5-XXL，分别得到image和text的embedding;
类别的数据通常没有caption标注，所以本文结合使用PALI和attribute claasification model来进行标注，标注结果进行concat；
输入模型的reference图片将背景mask掉了避免背景的影响；
在domain specific数据上进行训练会损害模型原本的文生图的能力，所以本文提出了regularized joint training scheme,首先基于同一个subject应该共享image embedding的事实，所以进行cross reference regularization，也就是如下图所示，也就是以一定概率将reference图片换成不同的同subject图片；其次对于非domain specific的数据，即general domain的图片将作为条件的image embedding置为空以尽可能的保存原文生图模型的能力；
有工作指出只训练额外的attn模块可以获得比较好的效果，但是本文发现效果不尽然，所以本文还是整个模型训练了；