字节提出InfiniteYou!基于DiT的灵活且高保真IP 保持图像生成新框架!

🌐 社群导航

🔗点击加入➡️【AIGC/LLM/MLLM/3D/自动驾驶】 技术交流群

🔗点击加入➡️【2-3月CCF投稿】交流群

最新论文解读系列

论文名:InfiniteYou: Flexible Photo Recrafting While Preserving Your Identity

论文链接:https://arxiv.org/pdf/2503.16418

开源代码:https://bytedance.github.io/InfiniteYou

导读

保留身份特征的图像生成旨在使用自由形式的文本描述重塑特定人物的照片,同时保留面部特征。这项任务具有挑战性,但益处颇多。先前的方法主要基于以U - Net为基础的文本到图像扩散模型开发,如稳定扩散XL(Stable Diffusion XL,SDXL)。然而,由于基础模型的生成能力有限,生成图像的质量仍然不足。最近,扩散变压器(Diffusion Transformers,DiTs)在内容创作方面取得了显著进展。特别是,最新发布的最先进的整流流DiTs,如FLUX和SD3.5,展示了令人惊叹的图像生成质量。因此,探索能够利用DiTs的巨大潜力来实现保留身份特征的图像生成等下游应用的解决方案至关重要。

简介

实现灵活且高保真的保留身份特征的图像生成仍然极具挑战性,特别是对于像FLUX这样的先进扩散变压器(Diffusion Transformers,DiTs)而言。我们推出了InfiniteYou(InfU),它是最早利用DiTs完成此任务的强大框架之一。InfU解决了现有方法的重大问题,如身份相似度不足、文本 - 图像对齐不佳以及生成质量和美学效果较低等。InfU的核心是InfuseNet,这一组件通过残差连接将身份特征注入到DiT基础模型中,在保持生成能力的同时提高了身份相似度。一种多阶段训练策略,包括预训练和使用合成单人多样本(single - person - multiple - sample,SPMS)数据进行有监督的微调(supervised fine - tuning,SFT),进一步改善了文本 - 图像对齐,提高了图像质量,并缓解了面部复制粘贴问题。大量实验表明,InfU达到了当前最优性能,超越了现有的基线模型。此外,InfU的即插即用设计确保了与各种现有方法的兼容性,为更广泛的社区做出了有价值的贡献。

方法与模型

1. 预备知识

流的无模拟训练。遵循文献 [12],生成模型被定义为建立从噪声分布  中抽取的样本  到数据分布  中抽取的样本  之间的变换,通过常微分方程 (ODE) 来表示,

其中速度  由神经网络权重  参数化。先前的工作 [7] 提出直接使用可微的 ODE 求解器来求解方程 (1)。然而,这种方法计算量很大,特别是对于参数化  的大型神经网络结构。一种更有效的方法是直接回归一个向量场 ,该向量场定义了  和  之间的概率路径 [31]。为了构建这样一个向量场 ,定义了一个前向过程,该过程对应于  和  之间的概率路径 ,表示为

图片

图 2. 基于 DiT 的方法相对于基于 U-Net 的方法的优越性以及 IP-Adapter (IPA) [54] 的副作用。

对于  和 ,边缘分布

与数据和噪声分布一致。边缘向量场  可以使用条件向量场  生成边缘概率路径 :

由于方程 (4) 中的边缘化操作,直接回归  是难以处理的。因此,我们转向一个简单且易于处理的目标,即条件流匹配 [12, 31]:

整流流。整流流 (RFs) [4, 33] 将前向过程定义为数据分布和标准高斯分布之间的直线路径,即

其中 。网络输出直接对速度  进行参数化。我们使用 (方程 (5))作为损失目标。文献 [12] 中定义了不同的流轨迹和采样器,包括对数正态采样,我们在模型训练中也采用了这种方法。

文本到图像的扩散变压器(DiTs)。我们的总体设置遵循Stable Diffusion 3.5 [12]和FLUX [26],它们源自潜在扩散模型(Latent Diffusion Models,LDM)[41],用于在预训练自动编码器的潜在空间中训练文本到图像的模型。除了将图像编码为潜在表示外,我们还使用预训练的、固定的文本模型对文本条件进行编码。我们使用FLUX [26]作为我们的扩散变压器(DiT)基础模型,它使用T5 - XXL [40]和CLIP [39]进行文本编码。FLUX使用多模态扩散主干网络,即多模态扩散变压器(MMDiT)[12]。与传统的扩散变压器(DiTs)[37]不同,考虑到文本和图像嵌入在概念上不同,多模态扩散变压器(MMDiT)对这两种模态使用两组独立的权重。这种设置相当于为每种模态配备两个独立的变压器(Transformer),但通过联合注意力将序列组合起来,以确保两种表示在各自的空间中工作,同时相互考虑。FLUX还在多模态扩散变压器(MMDiT)块之后应用了几个单扩散变压器(DiT)块。

图片

图3. InfiniteYou(InfU)的主要框架和InfuseNet的详细架构。投影后的身份特征和一个可选的控制图像通过InfuseNet经残差连接注入到文本到图像的扩散变压器(DiTs)中。具体来说,InfuseNet中的每个扩散变压器(DiT)块预测基础模型中相应的扩散变压器(DiT)块的输出残差。只有InfuseNet和投影网络是可训练的。

除了文本条件图像生成之外,所提出的InfU方法还注入人类面部身份信息以适应额外的模态。

2. 网络架构

针对此任务的传统方法主要是为基于U - Net的扩散模型(如SDXL [38])开发的。然而,这些方法生成的图像质量仍然不足(见图2 (a))。FLUX在背景清晰度、人体拓扑结构、小面部质量和整体吸引力方面明显优于SDXL,这凸显了基于扩散变压器(DiT)的解决方案的重要性。所提出的InfU受这些努力的启发,同时提出了一种基于扩散变压器(DiTs)的新颖解决方案。鉴于基于扩散变压器(DiT)的方法明显优于SDXL,如所示,我们专注于基于扩散变压器(DiT)的方法的开发和比较。

与通过IP - 适配器(IPA)[54]修改注意力[50]层来注入身份信息的常见做法不同,我们发现IP - 适配器(IPA)并非最优,并避免使用它。如图2 (b)所示,IP - 适配器(IPA)通常会引入副作用,如文本 - 图像对齐度下降、图像质量和美观度降低。我们推断,直接修改注意力层会显著损害基础模型的生成能力。此外,在相同位置(即注意力层)注入文本和身份信息可能会带来潜在的纠缠和冲突,从而损害整体性能。因此,我们提出了一种不使用IP - 适配器(IPA)的新颖替代解决方案,在减轻这些问题的同时保持较高的身份相似度。

所提出的InfU框架如图3所示。扩散变压器(DiT)基础模型(如FLUX)在训练期间保持固定,并作为图像生成的主要分支。它接收从标准高斯分布中采样的噪声图,以及来自身份图像和文本提示输入的特征,通过多个去噪步骤生成一幅符合文本描述同时保留人类面部身份的图像。文本提示由一个固定的文本编码器进行嵌入,然后通过注意力层[12]输入到基础模型中。下面,我们详细介绍我们注入身份信息的机制。

我们引入了注入网络(InfuseNet),这是一个注入身份和控制信号的重要分支(见图3)。注入网络与扩散变压器(DiT)基础模型结构相似,但包含的变压器(Transformer)模块更少。我们用表示基础模型中扩散变压器模块的数量,用表示注入网络中扩散变压器模块的数量。我们有,其中是乘法因子。一个可选的控制图像,如五个人脸关键点图像,可以输入到注入网络中,以控制主体的生成位置。如果不需要控制,可以使用纯黑色图像代替。身份图像由一个冻结的人脸身份编码器编码为身份嵌入,然后输入到一个投影网络中。该网络对身份特征进行投影,并通过注意力层将其发送到注入网络,这与扩散变压器基础模型中处理文本特征的方式类似。然后,注入网络预测扩散变压器基础模型的输出残差连接,从而有助于最终的图像合成。具体来说,注入网络中的扩散变压器模块预测基础模型中后续扩散变压器模块的残差:

在训练过程中,投影网络和注入网络是可训练的(使用公式(5)中的),而其他模块保持冻结。所提出的注入网络可以看作是控制网络(ControlNet)[56]的推广,能够通过残差连接引入更多模态来影响生成过程。这种身份特征的残差注入与通过注意力层进行的文本注入不同,它有效地分离了文本和身份输入,从而减少了潜在的纠缠和冲突。由于这种不依赖于图像提示调整(IPA)的纯残差注入设计,基础模型的生成能力受到的影响较小,从而提高了生成质量和文本 - 图像对齐度。注入网络同样基于扩散变压器,其与基础模型相似的架构确保了可扩展性和兼容性。可扩展的网络设计和大规模训练提高了身份相似度。

3.3. 多阶段训练策略

尽管InfU网络设计稳健,但在文本 - 图像对齐、生成美观度和图像质量下降等方面仍然存在挑战,尤其是在某些困难情况下。这个问题对于最先进的方法来说至关重要,因此需要一个通用的解决方案来推动未来的研究。

图片

图4. 引入的使用合成单人多样本(SPMS)数据和有监督微调(SFT)的多阶段训练策略。

我们设计了一种多阶段训练策略,包括预训练和有监督微调(SFT)[21, 49]。该策略提高了训练数据的数量、质量、美观度和文本 - 图像对齐度,从而在上述问题上提升了整体模型性能。训练策略按以下步骤制定(见图4)。步骤1:我们从几个人像数据集中收集并筛选真实的单人单样本(SPSS)数据。这些数据虽然美观度和质量不高,但可用于我们的InfU模型的第一阶段预训练,遵循标准的训练实践[51, 54]。使用真实的单人单样本数据,我们在训练过程中使用一张真实的人像图像作为源身份图像和生成目标图像,以学习重建。

步骤2:在InfU模型的第一阶段预训练之后,我们进行第一阶段模型推理,以评估在不使用任何插件(如低秩自适应(LoRA)[18])的情况下的图像生成性能。虽然生成结果的人脸身份相似度令人满意,但在文本 - 图像对齐、生成美观度和图像质量方面仍有改进空间。

步骤3:然后,我们为第一阶段训练的InfU模型配备一系列有用的现成模块,如美学模块/低秩自适应、增强低秩自适应、人脸交换模块[6]和其他预处理/后处理工具等。虽然这个过程耗时且繁琐,但它使模型能够生成质量和美观度更高的合成数据。我们有意将数据构成为单人多样本(SPMS),其中一张真实的人脸图像作为源身份图像,合成数据作为生成目标图像。

步骤4:随后,将合成的单人多样本数据输入到第一阶段训练的InfU模型中进行第二阶段有监督微调(SFT)。利用单人多样本的特性,我们使用真实人脸数据作为源身份,配对的高质量合成数据作为生成目标进行模型训练。其他训练设置与第一阶段相似。这种有监督微调使模型能够学习合成数据的高质量和美观度,同时保持与真实人脸输入的身份相似度。

步骤5:在第二阶段有监督微调之后,InfU模型即可进行最终推理和部署。在不使用任何插件的情况下,生成结果的文本 - 图像对齐、生成美观度和图像质量都得到了显著改善,同时保持了较高的人脸身份相似度。

实验与结果

1. 设置

实现细节。我们使用PyTorch实现了我们的InfiniteYou(InfU)框架,并利用了Hugging Face Diffusers库。DiT基础模型是FLUX.1 - dev [26]。我们为In - fuseNet设置了乘法因子。投影网络源自文献[54],投影身份特征的令牌数量设置为8。所有实验均使用FSDP [59]在NVIDIA H100 GPU上进行,每个GPU具有80GB显存。我们使用AdamW [35]优化器,其中和 。权重衰减设置为0.01。我们采用条件流匹配[12, 31](公式(5))作为损失函数,并使用rf/lognorm(0.00,1.00)的对数正态采样[12]。对于第一阶段的预训练,模型在128个GPU上以初始学习率进行训练。总批量大小设置为512,第一阶段的训练持续次迭代。对于第二阶段的有监督微调,模型在上以初始学习率进行训练,总批量大小为256。所有其他设置保持不变。

数据集。对于第一阶段的预训练,我们总共使用了九个开源数据集,包括VGGFace2 [5]、MillionCelebs [58]、CelebA [34]、CelebV - HQ [60]、FFHQ [22]、VFHQ [53]、EasyPortrait [25]、CelebV - Text [55]、CosmicManHQ - 1.0 [28],以及几个高质量的内部数据集。我们进行了仔细的数据预处理和过滤,去除了包含低质量小人脸、多个人脸、水印或不适宜内容的图像。使用宽高比分桶[1]对数据进行预处理以用于训练。第一阶段预训练的单人单样本(SPSS)真实数据总量达到4300万,我们认为这对于保留身份的图像生成模型的大规模训练来说是足够的。对于第二阶段的有监督微调,单人多样本(SPMS)合成数据的总量为200万。所有数据均由第一阶段预训练的InfU模型本身生成,并配备了有用的现成模块(见第3.3节)。高质量的合成数据也经过仔细处理和过滤,以获得姿势正常、身份相似度高且美观的图像对,确保其可用性。此外,我们观察到,使用来自多个来源(例如人类、小型字幕模型和大型视觉语言模型(VLM))的混合字幕来训练模型是有益的。除了数据集中的原始字幕外,我们还使用BLIP - 2 [27]和InternVL2 [8]从不同来源获取文本字幕用于训练。

基线模型。由于InfU基于DiT(例如FLUX),我们将其与最相关且最先进的基于DiT的方法PuLID - FLUX [14]进行比较。其他开源工作,包括来自InstantX [20]和XLabs - AI [3]的FLUX.1 - dev IP适配器,并非专门针对人脸设计。我们选择InstantX的模型作为该系列的代表性基线模型,以进行更全面的比较。其他基于SDXL的传统方法由于基础模型的限制,图像质量要低得多(见图2),因此不具有公平的可比性。

评估。我们在由GPT - 4o创建的一个人像基准数据集[19]上进行评估,该数据集包含200条提示词和相应的性别信息。这个基准数据集涵盖了各种情况,包括不同的提示词长度、人脸大小、视角、场景、年龄、种族、复杂程度等。我们选择了15个具有代表性的身份样本,并将它们的性别与所有合适的提示词进行配对,从而得到1497个测试输出用于系统评估。我们采用了三个具有代表性且有用的评估指标,即身份损失(ID Loss)[10]、CLIP分数(CLIPScore)[16]和挑选分数(PickScore)[23]。身份损失定义为1 - 余弦相似度(),其中是余弦相似度,和分别是生成的身份图像和参考身份图像。身份损失越低意味着相似度越高。我们遵循原始论文来使用CLIP分数和挑选分数。CLIP分数越高表示文本 - 图像对齐效果越好,挑选分数越高表示图像质量和美学效果越好。

2. 主要结果

定性比较。定性比较结果如图5所示。FLUX.1 - dev IP - Adapter(IPA)[20]生成结果的身份相似度不足。此外,其文本 - 图像对齐效果和生成质量也不如其他方法。PuLID - FLUX [14]生成的图像具有不错的身份相似度。然而,它存在文本 - 图像对齐不佳的问题(第1、2、4列),并且图像质量(例如第5列中手部效果不佳)和美学吸引力有所下降,这表明基础模型的生成能力做出了很大妥协。此外,PuLID - FLUX生成的结果中人脸复制粘贴问题明显(第5列)。相比之下,所提出的InfU在所有维度上都优于基线模型。

图片

图5. InfU与最先进的基线模型FLUX.1 - dev IP - Adapter [20]和PuLID - FLUX [14]的定性比较结果。

定量比较。定量比较结果如表1所示。我们的方法实现了最低的身份损失,这表明具有最佳的身份相似度。如前所述,现有的FLUX.1 - dev IPA [20]版本并非专门针对人脸设计,因此其身份相似度远不如其他方法。此外,我们的方法获得了显著更高的CLIP分数,这证明了其卓越的文本 - 图像对齐能力。值得注意的是,CLIP分数的提升非常显著,在我们的测试集上,将与FLUX.1 - dev的上限性能(0.334)的差距缩小了66.7%。此外,我们的方法产生了最佳的挑选分数,这表明InfU的整体图像质量和生成美学效果超过了所有基线模型。

用户研究。我们对InfU和最具竞争力的基线方法PuLID - FLUX [14]进行了用户研究。要求参与者对70组样本进行评估。该研究包括来自不同背景(例如,来自不同国家的质量保证专业人员、研究人员、工程师、设计师等)的16名参与者,以减少个人理解偏差。我们的方法在整体性能(在身份相似度、文本 - 图像对齐、图像质量和生成美学方面)的最佳选择率达到了72.8%,而PuLID - FLUX为。这表明在人类偏好方面,我们的结果明显更优。

即插即用特性。所提出的InfU方法具有理想的即插即用设计,与许多现有方法兼容。它自然支持用FLUX.1 - dev的任何变体替换基础模型,例如使用FLUX.1 - schnell [26]以实现更高效的生成(例如,在4步内完成,图6 (a))。与现成的ControlNets [56]和LoRAs [18]的兼容性为定制任务提供了额外的可控性和灵活性(图6 (b)(c)(d))。值得注意的是,我们与Omini - Control [48]的兼容性扩展了InfU用于多概念个性化的潜力,例如交互身份(ID)和对象个性化生成(图6 (e))。尽管将IP - Adapter (IPA) [54]与我们的方法结合用于身份注入并非最优选择(见第4.3节),但InfU很容易与IPA兼容以实现个性化图像的风格化,通过IPA注入风格参考时能产生不错的结果(图6 (f))。我们的即插即用特性甚至可以扩展到上述方法之外的更多方法,为更广泛的社区做出有价值的贡献。

图片

图6. InfU理想的即插即用特性,与许多流行的方法和插件兼容。

3. 消融实验

我们主要针对多阶段训练策略和身份注入设计这两个核心贡献进行了消融实验。由于 InfuseNet 是不可或缺的,我们强调了仅使用 InfuseNet 的重要性,而不引入可能带来负面影响的 IPA。

结果如表 2 所示。如果没有第二阶段的有监督微调(SFT),InfU 可以生成身份相似度更高的图像。然而,文本 - 图像对齐度会下降,图像质量和美感也会变差。我们推断,单人多样本(SPMS)合成数据在学习身份方面带来了稍多的困难,但在其他方面有显著改善。在第二阶段的 SFT 中使用单人单样本(SPSS)合成数据而非 SPMS(不使用 SPMS)会导致身份相似度显著下降,同时文本 - 图像对齐度和图像质量也会下降。我们推断,SPSS 合成数据可能会通过直接学习合成数据的重建而不是将参考真实数据转换为合成数据来削弱 InfuseNet 的功能。这可能会导致在没有足够数据多样性的情况下拟合回基础模型的分布。这些结果强调了多阶段训练策略和 SPMS 格式构建的重要性。如果我们将 IPA 与 InfuseNet 一起用于身份注入(与风格化不同),尽管身份相似度略有提高(仍然比我们的第一阶段模型差),但文本 - 图像对齐度、图像质量和美感会大幅下降。这凸显了 IPA 的非最优性和负面影响。

结论

我们介绍了 InfU,这是一个使用先进的扩散变压器(DiTs)进行身份保留图像生成的新颖框架。InfU 解决了现有方法在身份相似度、文本 - 图像对齐度、整体图像质量和生成美感方面的关键局限性。我们框架的核心是 InfuseNet,它在保持生成能力的同时增强了身份保留。多阶段训练策略进一步提高了我们的整体性能。综合实验表明,InfU 优于现有最先进的基线方法。此外,InfU 是即插即用的,并且与各种方法兼容,为更广泛的社区做出了重要贡献。InfU 为该领域设定了新的基准,展示了集成 DiTs 进行高级个性化生成的巨大潜力。未来的工作可以探索在可扩展性和效率方面的改进,以及将 InfU 应用扩展到其他领域。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值