科大讯飞EditID横空出世!全球首个DiT免训练框架,定制身份可编辑+一致性双SOTA,IBench评测登顶!

🌐 社群导航

🔗 点击加入➡️【AIGC/LLM/MLLM/3D/自动驾驶】 技术交流群

🔗 点击加入➡️【2-3月CCF投稿】交流群

最新论文解读系列

论文名:EditID: Training-Free Editable ID Customization for Text-to-Image Generation              

论文链接:https://arxiv.org/pdf/2503.12526

开源代码:暂无  

导读

我们提出了EditID,这是一种基于DiT架构的免训练方法,可实现用于文本到图像生成的高度可编辑的定制身份。现有的用于定制身份的文本到图像模型通常更注重身份一致性,而忽略了可编辑性。通过提示词来改变面部朝向、人物属性和其他特征具有挑战性。EditID通过将用于定制身份的文本到图像模型解构为图像生成分支和人物特征分支来解决这个问题。人物特征分支进一步解耦为三个模块:特征提取、特征融合和特征整合。通过引入映射特征和偏移特征的组合,以及控制身份特征整合的强度,EditID实现了跨网络深度的局部特征的语义压缩,形成了一个可编辑的特征空间。这使得在保持身份一致性的同时,能够成功生成具有可编辑身份的高质量图像,在IBench评估中取得了优异的结果。IBench是定制身份文本到图像生成领域的一个可编辑性评估框架,它定量地证明了EditID的卓越性能。EditID是第一个在DiT架构上提出可定制身份可编辑性的文本到图像解决方案,满足了长提示词和高质量图像生成的需求。

简介

身份定制生成作为一种个性化的文本到图像生成类型,将身份与提示词相结合,以创建特定的外观。它在故事生成和人物创作等场景中具有重要的应用价值,并且是当今主要的文本到图像创意制作平台的核心卖点之一。

方法

我们方法的核心是在确保人物一致性的同时,优先提升人物可编辑性。图 2 展示了我们方法的架构,该架构将身份定制方法解构为图像生成主分支和人物特征分支。特征分支进一步解耦为三个模块:人物特征提取、特征融合和特征整合。该框架同时确定了可编辑性的来源:1) 来自特征提取模块的局部身份特征;2) 来自特征融合模块的身份偏移特征;3) 用于将身份信息整合到 DiT 生成主干中的嵌入强度设计。值得注意的是,第三个方面不仅影响可编辑性,还影响人物一致性。通过对局部身份特征进行精细组合和设计,我们实现了最佳可编辑性。

1. 预备知识

1.1 DiT 流匹配

扩散模型的核心在于通过渐进式去噪过程实现数据生成。传统扩散模型将前向扩散过程定义为

其中  和  是噪声调度系数, 表示连续时间步。基于流匹配理论,生成过程可以建模为一个常微分方程(ODE):

其中  是待学习的向量场, 是条件输入(例如,文本提示)。与依赖噪声预测目标的传统扩散模型相比,流匹配直接学习从数据分布到噪声分布的传输映射。其训练目标可以表示为:

(3)

其中  表示线性插值路径,且  。

在 DiT 架构中,我们用 Transformer 模块取代了传统的 UNet,利用自注意力机制对全局上下文进行建模。给定一个条件嵌入序列  ,DiT 中的向量场预测器可以分解为:

其中 、 分别为查询矩阵、键矩阵和值矩阵。 表示可学习的投影矩阵,Attn 表示多头注意力机制。这种架构特别适合长文本条件生成,因为其自注意力机制能有效捕捉提示词之间的长距离依赖关系。

目前,基于 DiT 架构和流匹配的图像生成模型主要有 SD3和 Flux。本文选择 Flux 作为基础框架。Flux 框架在 DiT 的基础上引入了正则化流匹配策略,并采用了改进的噪声调度函数:

这确保了在流匹配过程中从数据到噪声的平稳过渡,同时保持数值稳定性。

1.2 基于 DiT 的身份(ID)一致性

基于 DiT 的身份定制方法极为罕见,大多数角色身份定制方法仍依赖于 SD 和 SDXL 的 UNet 架构。Flux - CustomID采用 ArcFace和 CLIP提取细粒度的身份特征,最终通过 PerceiverResam - pler将这些特征嵌入到图像生成分支中。然而,在实际测试中,它在保真度、任务一致性和可编辑性这三个维度上的表现仍不理想。PuLID是目前身份定制方面的先进模型。PuLID 推出了基于 Flux 的实验版本,解决了两个重大挑战:1) 身份嵌入会干扰原始模型的行为,PuLID 旨在在插入身份信息后保留原始的文本到图像(T2I)生成能力;2) 保真度不足。为解决这些问题,PuLID 在标准扩散去噪训练分支的基础上引入了一个 Lightning T2I 分支,形成一个对比对。这个对比对共享相同的提示词和初始潜在变量,其中一个进行身份插入,另一个则不进行。在 Lightning T2I 过程中,对比对之间的特征进行语义比较,以指导身份适配器在不干扰原始模型行为的情况下插入信息。此外,提取身份嵌入信息并与真实面部特征进行比较,以计算身份损失,从而提高保真度。PuLID 的角色特征分支使用 ArcFace 提取全局特征,并在检测、对齐和分割面部后,使用 EvaCLIP 提取局部特征。在本文中,我们采用 PuLID 作为基线模型,利用其身份损失和对齐损失的整体设计。在无训练框架内,我们通过将角色特征分支进行分割并设计为三个模块,探索可编辑性变化的模式。

2. 特征映射

在角色特征提取模块中,大多数角色特征处理方法将全局特征和局部特征相结合。我们发现可编辑性蕴含在局部特征中。EditID 的特征提取模块由两个分支组成。分支 1:角色特征提取器采用 SCRFD进行轻量级人脸检测,然后将检测到的面部区域通过 ArcFace 进行全局特征提取。分支 2:使用 RetinaFace 进行面部关键点检测,识别五个关键点,然后进行正面人脸对齐。在进行面部语义分割后,获得更精细的面部区域,然后应用 EvaCLIP 进行细粒度的局部特征提取。从 EvaCLIP 的 23 层特征中,我们选择了五个具有身份感知的层。令人惊讶的是,我们发现选择这五个具有身份感知的层显著提高了可编辑性。我们将这五个具有身份感知的特征称为“映射特征”。全局特征由分支 1 的面部特征和分支 2 的 CLS 标记特征组成,而映射特征直接对应于局部特征。最终,全局和局部特征集都被输出并输入到特征融合模块中。该模块的详细示意图如图 3 所示。

图 2. EditID 框架概述。框架的上半部分描述了基于 DiT 的图像生成过程。下半部分表示角色特征分支,分为三个部分。第一部分是身份特征提取模块,负责提取全局和局部特征,生成映射特征。第二部分是身份特征融合模块,负责融合映射特征,在这个阶段产生偏移特征。第三部分是身份特征集成模块,实现动态身份嵌入机制设计。

我们对全局和局部特征进行了进一步分析。当输入具有明显动作变化的提示时,如图4(a)和图4(b)所示,将全局特征中的面部特征或CLS标记(CLS token)特征置为零后,肢体或面部朝向没有显著变化。然而,图4(b)的角色一致性比图4(a)更高,这表明ArcFace比CLIP能提取更细粒度的面部特征,更有效地捕捉差异。在图4(c)中,当所有特征和局部特征都置为零时,角色特征分支失效,退化为标准的Flux图像生成。这显著提高了可编辑性,但消除了角色一致性。在图4(d)中,将局部特征置为零仍保留了良好的可编辑性,但角色一致性有所下降。这使我们发现,全局特征主要控制角色一致性,而可编辑性隐藏在局部特征中。全局特征倾向于编码面部的整体身份(ID)信息,如面部结构,表现出高耦合性和稳定性。相比之下,局部特征通过EvaCLIP的身份感知过滤,将23层特征减少到5层,本质上实现了跨网络深度的语义压缩。这个过程在细粒度层面上解耦了不同面部属性的特征,形成了可独立操作的语义单元。我们对EvaCLIP中的映射特征进行了更细致的分解。如图5所示,从图5(a)到图5(f),我们观察到随着映射特征被过滤,可编辑性相应改变,但角色一致性也受到影响。可编辑性的增加对应着角色一致性的降低。这促使我们探索一致性和可编辑性之间的最佳平衡点。

图3. 角色特征提取模块的详细示意图。来自EvaCLIP的蓝色面部特征和深绿色CLS标记(CLS token)特征共同构成全局特征。黄色特征表示映射特征,EvaCLIP中的第4、8、12、16和20层为原始映射特征。灰色表示未选择的特征。

图4. 全局和局部特征对生成可编辑性的影响。灰色表示未选择的特征,置为零。

该模块由两部分组成:全局特征和跨层局部特征(映射特征)。其核心目标是将控制身份(ID)一致性的全局特征与承载可编辑自由度的局部特征解耦。如分支1所示,全局特征由二维编码器联合提取:

其中表示基于ArcFace的密集面部编码器,负责提取与面部身份(ID)相关的深度语义特征; 表示来自EvaCLIP图像编码器的CLS标记(CLS token)特征,捕捉角色的整体视觉上下文信息。两者通过拼接操作融合成维度为 的全局特征向量。

如分支2所示,在跨层局部特征中,可编辑的局部特征通过分层语义压缩获得:

其中表示从EvaCLIP的23层中选择的五个特征层,表示第层的输出特征图。通过跨层过滤机制,与面部属性(如表情、朝向)高度相关的特征响应被分离出来,形成可独立操作的语义单元。

图5. 全局和局部特征对生成可编辑性的影响。灰色表示未选择的特征,置为零。

3. 特征偏移

在特征融合模块中,全局特征被输入到身份嵌入网络(ID embedding network),这是一个由三个线性层组成的神经网络,而局部特征则被输入到映射网络。映射网络与身份嵌入网络结构相似,二者都有助于特征转换。我们的方法基于免训练架构。因此,在调优阶段,映射特征与映射网络建立一一映射关系。当我们用偏移特征替换映射特征时,它们与映射网络之间会发生特征偏移。映射特征仅由五组组成,是从EvaCLIP的23层中选取的五个身份感知特征。这种选择本质上实现了跨网络深度的语义压缩:浅层捕捉组合结构信息,中层编码详细的几何结构,深层关联高级语义。这种分层选择构建了一个可编辑的语义空间,不同层对应不同粒度的面部编辑维度。对EvaCLIP的面部特征进行可视化,为我们选择特征提供了指导。我们发现,偏移特征的选择也会显著影响可编辑性,最终我们选择了第4、14、16、18和20层的特征组合。

图6. 上半部分展示了引入偏移特征的特征融合模块。下半部分展示了EvaCLIP 23层面部特征的可视化结果,黄色模块代表映射特征,蓝色框表示偏移特征与映射特征的组合。

该模块融合全局和局部特征,通过映射特征和偏移特征引入更丰富的可编辑性。公式如下:

其中和是输出的组合特征,来自一个由三个线性层组成的身份嵌入网络,表示映射网络。这里,是映射特征和偏移特征的组合,表示由映射特征组成的局部特征,表示偏移特征。映射特征和偏移特征的总数满足:

其中和分别表示映射特征集和偏移特征集。

4. 身份特征集成

经过特征融合模块后,只有一组特征被输出到身份特征集成模块。该模块需要通过感知器注意力(PerceiverAttention)与图像生成主分支进行交互。在Flux的19个双流块和38个单流块中,我们选择10个块来嵌入身份信息。我们从两个维度进行了探索。首先,图像生成的早期阶段主要涉及低频信息,如颜色和构图,而中后期涉及高频信息,对应优化细节的中后采样步骤。因此,我们在初始去噪阶段调整了身份信息嵌入的强度,如图7所示。然而,过强的身份嵌入会破坏噪声分布的平衡,导致模型无法正确解码低频信息。这种生硬的调整忽略了生成过程的渐进性,在初始生成阶段引入偏差,影响收敛。结果,生成的图像整体变暗,导致光照和稳定性损失。

图7. 左图展示了身份特征集成模块与图像生成主分支之间的动态身份信息交互,右图展示了身份特征集成模块内对身份信息的软控制。

其次,我们采用了一种更柔和的方法来进行身份(ID)强度控制。在特征集成模块中,生成的噪声图像作为查询(Query),而身份信息则作为用于加权的键(Key)和值(Value)。在输出时,我们对查询进行重新加权,使其与身份特征的维度大小一致,然后通过残差连接进行信息补充,并使用拼接的方式进行融合。重新加权可以通过多种方式实现。为了在不过度削弱生成噪声的情况下实现维度转换,我们设计了一个转换矩阵。考虑到信息保留的特性,我们探索了诸如随机正态线性(randn linear)、离散余弦变换(DCT)和部分傅里叶变换等方法,最终采用了随机正态线性方法。图像生成的可编辑性主要源于图像端。然而,文本信息嵌入在噪声图像中,而噪声图像本质上是去噪过程的起点,并且包含潜在的语义信息。通过对噪声图像进行补偿,文本的语义影响可以更顺畅地渗透到集成了身份嵌入信息的图像生成过程中。这相当于在潜在空间中引入了额外的自由度,使得文本驱动的可编辑性能够在身份信息的约束下实现,而不会过度受到身份嵌入的限制。

最终,通过结合身份特征提取模块的映射特征、身份融合模块的偏移特征以及身份集成模块的软身份强度控制机制,我们在保持身份一致性的同时实现了出色的可编辑性。

IBench

为了解决个性化人物图像生成领域中人物一致性和可编辑性评估指标的缺乏和不足问题,并量化无训练架构下的改进效果,我们提出了一个可配置的模块化自动评估框架 IBench。该框架全面引入并实现了多种可编辑性验证指标。

1. 数据集

IBench 的评估数据由两部分组成:提示词和评估图像。评估图像分为三组:Unsplash、ChineseID 和 GenerateID。Unsplash 组包含 49 张图像,涵盖了各种肤色、人物角度的显著变化以及面部遮挡的情况。ChineseID 组包含从互联网收集的 100 张中国人的图像,包括电影和体育等领域的知名人物,代表了性别、年龄和多个角度的多样性。GenerateID 组包含由文本到图像模型生成的 100 张身份图像,具有精细的面部特征、多样的姿势、配饰和发型,以及经过光影渲染的人物,确保了美学质量和突出的身份特征。

IBench 中的提示词分为三个维度:短提示词、用于可编辑性的动作提示词和手动收集的动作 - 故事提示词。短提示词旨在与 UNet 架构的评估兼容,主要来源于主流评估报告。有 20 组短提示词,涵盖了各种风格属性,如动作、视角、风格和复杂程度。可编辑的长提示词来源于 VBench中的增强提示词,选择了 41 组,包括人物动作和场景故事的长描述,是本次评估的重点。手动收集的提示词由从文本到图像用户那里收集的 80 组提示词组成,经过手动筛选,包含了带有故事元素的丰富动作描述。

在 IBench 中,我们将 Unsplash 与短提示词配对作为一组,ChineseID 与可编辑的长提示词配对作为另一组,GenerateID 与手动收集的提示词配对作为第三组。然而,在实践中,这些图像和提示词可以进行交叉验证。提示词和图像将在附录中详细展示。

2. 评估指标

我们从三个维度设计了指标:一致性、可编辑性和文本到图像(T2I)通用评估维度。在文本到图像通用评估中,主要关注图像的美学属性。在一致性维度中,评估的重点是人物身份生成的相似性和遵循提示词的一致性。在可编辑性维度中,我们提出了多个创新的测量指标来评估人物身份的可编辑性。

2.1 文本到图像通用评估维度

弗雷歇 inception 距离(FID):通过比较带身份信息的生成图像(imagewithid)和不带身份信息的生成图像(imagewithout id)在预训练的 InceptionV3 模型特征空间中的分布差异,我们量化了这两种分布之间的相似性。值越低表示相似性越高,表明插入身份信息不会影响图像生成。

美学评分:使用 LAION 美学预测器来评估带身份信息的图像(imagewithid)的美学质量得分。它反映了布局和颜色的和谐与丰富程度,以及图像的真实感和自然度等维度。

成像质量:这一指标评估带身份信息的图像(imagewithid)中存在的失真情况(如过度曝光、噪声、模糊),使用在 SPAQ 数据集上训练的 MUSIQ图像质量预测器进行评估。

2.2 一致性维度

面部相似度(Facesim):此指标计算身份证图像(ID image)与带身份证图像(imagewithid)之间的面部相似度。我们使用来自InsightFace的SCRFD来检测面部区域,并使用ArcFace提取面部特征向量,然后计算余弦相似度以衡量生成的面部区域的相似度。

文本CLIP相似度(ClipT):此指标计算输入提示的CLIP文本编码与带身份证图像的CLIP图像编码特征之间的余弦相似度。它用于评估生成图像遵循提示变化的能力。

图像CLIP相似度(ClipI):此指标计算带身份证图像和不带身份证图像的CLIP图像编码之间的余弦相似度。它衡量插入身份证前后两幅图像之间的相似度。ClipI分数越高,表明插入身份证后对图像元素的修改与原始模型生成的结果相比干扰越小。

Dino:此指标计算身份证图像和带身份证图像的DINO图像编码之间的余弦相似度。DINO特征更精细,可用于衡量生成图像相对于身份证图像的变化。

面部DINO相似度(Fgis):对应于DINO指标,此指标计算身份证图像和带身份证图像面部区域的DINO图像编码的余弦相似度。使用MTCNN进行面部检测,能够对面部区域的相似度进行精细测量。

2.3 可编辑性维度

姿态差异(Posediv):此指标计算身份证图像和带身份证图像面部区域的欧拉角(偏航角、俯仰角和翻滚角)的差异。使用MTCNN进行面部检测,并使用Hopenet提取欧拉角。该指标用于评估面部区域的可编辑性。

关键点差异(Landmarkdiff):此指标计算身份证图像和带身份证图像面部区域五个归一化关键点的平均欧几里得距离的差异。使用MTCNN进行面部检测,归一化基于五个点的边界矩形的最大对角线长度。

表情差异(Exprdiv):此指标计算身份证图像和带身份证图像面部区域表情变化的比例。使用MTCNN进行面部检测,基于VGG19的表情分类模型将表情分为七类:愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。该指标衡量插入身份证前后身份证上表情变化的比例。

实验

1. 实验设置

我们使用PuLID的Flux版本作为基础模型。对于Flux模型,采样步数设置为20,引导尺度为3.5,CFG尺度为1,并采用欧拉采样器。对于人物特征分支,我们采用Antelopev2作为人脸识别模型,采用EVA - CLIP作为CLIP图像编码器。我们最终的映射特征和偏移特征组合由五组组成,并且在身份证集成模块中实现了残差动态身份证信息嵌入,使用拼接作为融合方法。所有实验均在四块NVIDIA A100 GPU上进行,推理框架为ComfyUI。

2. 定性比较

我们采用InstantID的SDXL版本、PuLID以及PuLID的Flux版本作为对比模型组,其中InstantID和PuLID SDXL的基础模型是sdx1_base_1.0。如图8所示,EditID以长文本提示作为输入,在保持模型一致性的同时,与PuLID Flux近乎同步的复制粘贴式人脸插入相比,实现了更好的可编辑性。在第一列中,当添加“头盔下露出两条俏皮的辫子”时,EditID成功改变了发型。与Flux T2I相比,身份嵌入(ID embedding)增强了同步对齐场景的能力。在第二列中,当添加“一位留着飘逸长发的年轻女子”时,EditID能够实现年龄变化;然而,与Flux T2I生成的结果相比,表情变化不太明显。在第三列中,输入侧面的身份图像并添加“直接面向相机”,EditID实现了面部旋转,并在从侧面视图转为正面视图时补全了面部。相比之下,PuLID Flux几乎无法旋转面部。在第四列中,输入正面的身份图像并添加“主体穿着一件合身的白色背心和一件牛仔夹克,夹克袖子卷起,呈现出一种休闲的风格”,EditID在保持与Flux T2I对齐的同时实现了从正面到侧面的过渡。PuLID SDXL版本的身份生成质量和细节处理通常较差,保真度较低,这可能是由于SDXL基础模型的生成能力有限。其人物一致性也不如Flux版本,生成的图像呈现出较弱的非现实风格属性。顶级闭源文本到图像模型在生成方面具有良好的丰富度,能产生提示中未出现的场景关联,但它们的保真度和人物一致性都较差。

我们主要关注EditID在长提示下的性能。在表1中,使用可编辑长提示的ChineseID评估组合时,EditID在三个传统美学指标(FID、美学指标和图像质量)上表现良好。在衡量一致性的Facesim指标方面,与PuLID的Flux版本相比,EditID仅略有下降。然而,如图8所示,PuLID的Flux版本表现出过强的一致性,甚至在输出中复制粘贴输入的身份人脸,这极大地限制了文本 - 图像一致性生成的适用性。面部和肢体特征需要在不同场景中呈现出不同的变化。在ClipI指标中,很明显EditID中的身份插入不会强烈干扰原始生成能力。ClipT指标也显示出良好的文本跟随能力,而更细粒度的一致性评估指标Dino和Fgis则有显著改善。对于最关键的可编辑性指标,与PuLID的Flux版本相比,EditID在Posediv的三个欧拉角上总共提高了5分,并且在Landmarkdiff上也有大幅提升。Facesim指标仅下降了2分,这表明EditID在提供出色可编辑性的同时仅牺牲了轻微的相似度。实际上,PuLID Flux中过强的人物一致性约束表明,释放过多的一致性以换取增强的可编辑性是一个非常明智的选择。与PuLID的SDXL版本相比,虽然可编辑性较高,但它牺牲了过多的人物一致性。

我们观察到,在可编辑长提示的ChineseID和手动收集提示的GenerateID上的性能相似。因此,在后续分析中我们将重点关注ChineseID可编辑长提示的性能。更多指标可在附录的第4节中找到。

3. 消融研究

在我们无需训练的框架中,有必要评估多个指标的变化和组合所产生的影响。以下实验组主要关注相似度和可编辑性指标。

3.1 映射和偏移特征的组合

在第3节中,我们从映射特征和偏移特征的角度对可编辑性变化的来源进行了定性分析。EvaCLIP引入的多层次、细粒度的局部语义特征是可编辑性的来源。下面,我们将分两组进行定量讨论。在表3中,我们主要研究前两个特征选择。实际上,第一个特征的选择至关重要。作为浅层特征,它包含丰富的可编辑语义信息。在前四组中,第一个特征是EvaCLIP的第四层特征,第二个特征分别是第8层、第12层和第16层。显然,随着语义信息的减弱,面部相似度(Facesim)降低,但可编辑性显著提高,呈现出强烈的反比关系。比较第三组到第六组,其中第一个特征被替换,我们观察到面部相似度(Facesim)降低,但可编辑性有更大的提升。这表明同一层次(浅层)的特征偏移可以提供显著的可编辑性。我们使用IBench进一步以更细的粒度剖析组合信息。

在表4中,选择浅层特征后,我们进一步研究中层和深层特征。仅选择浅层特征可显著提高可编辑性,但会导致人物一致性损失更大。当输入丰富的长提示时,生成的图像与无身份文本到图像(T2I)的结果非常相似。我们进一步筛选中层和深层特征,因为深层特征提供更丰富的细节,有助于提高图像保真度。我们在图9中绘制了我们的基础模型PuLID(Flux)和我们提出的模型之间面部相似度(Facesim)和姿态差异(PoseDiv,原始/俯仰/滚动)值的差异。我们观察到,随着特征组的调整,面部相似度(Facesim)和姿态差异(PoseDiv)呈现线性关系。我们从曲线中选择了最具性价比的组合,在提高可编辑性的同时确保了高度一致性。

3.2 偏移策略

对于映射特征和偏移特征的组合,特征融合模块选择五组特征进入映射网络,最终输出身份(ID)特征。然后,这些特征通过身份集成模块中的身份动态嵌入机制集成到主图像生成分支中。对于这五组特征的设计,可以采用多种方法。当可用特征少于五组时,可以使用除零填充之外的策略,如插值法。当可用特征多于五组时,可以应用平均融合等策略。在图10中,我们定性分析了处理多于五组特征的两种策略(平均法和最大值法)以及处理少于五组特征的两种策略(填充法和插值法)。在图10(a)(b)中,最大值策略生成的图像具有更高的清晰度和更强的光照效果。在图10(c)(d)中,插值策略产生的图像质量较低。从23层中选择特征比修改特征能取得更好的效果,这就是我们倾向于映射特征和偏移特征组合的原因。基于现有特征的均值偏移的平均法表现也不错。

图8. 定性比较:无身份插入的文本到图像生成(T2I w/o ID)表示未插入身份信息的Flux T2I的输出。EditID在保持身份一致性的同时实现了更高的可编辑性。它可以准确地进行诸如发型和配饰更改(第一列)、年龄调整(第二列)以及面部和肢体编辑(第三列和第四列)等编辑操作。

表1:IBench在具有可编辑长提示的中文身份(ChineseID)上的评估指标结果

表2:IBench在GenerateID上使用手动收集的提示词得出的评估指标结果

表3:在可编辑长提示的ChineseID(中文身份识别)上对偏移特征的定量比较。“特征”表示一个包含5层特征的列表,“-”表示该层的特征被设置为0。

图9. PoseDiv和Facesim的原始/俯仰/横滚值与PuLID(通量)相应值的差异变化曲线。

图10. 特征偏移策略,其中第一行表示处理五组以上特征的策略,第二行表示处理少于五组特征的策略。

表4:可编辑长提示下ChineseID特征组合的定量比较。“特征”表示一个5层特征列表,“-”表示该层的特征设置为0。

3.3 身份集成模块的可编辑性

身份集成模块中的动态身份集成设计也是可编辑性的一个重要来源。在该模块中,我们主要考虑了两个维度:重新加权和特征融合方法。重新加权确保与身份嵌入特征的维度一致性,同时不损害噪声特征,而融合方法将身份集成后的特征适当地补偿回采样的噪声特征中,增强了文本维度的可编辑性。我们在图11中进行了定性分析,以研究随机线性方法在重新加权和各种融合方法中的影响。融合方法包括:加权(Weight):为两个特征集分配不同的融合权重;随机失活(Dropout):在重新加权后随机屏蔽特征以减少信息冗余;拼接(Concat):将两个特征集拼接,然后计算它们的平均值进行融合;求和(Sum):直接将两个特征集相加;相乘(Multiply):将两个特征集相乘;取最大值(Max):取两个特征集的最大值。我们观察到,在图11(a)(b)(c)中,身份仍然表现出很强的绑定效果,面部朝向没有显著变化,尽管图像保真度显著下降。在图11(d)(e)(f)中,身份一致性下降,但可编辑性逐渐增加。最终,我们从图11(d)中选择了拼接融合方法,将其与映射特征和偏移特征相结合,以实现高度的一致性。

图11. 重新加权后不同特征融合方法的效果示意图。

总结

本文提出了EditID,一种用于文本到图像生成的免训练身份定制方法。我们是首个在DiT架构内探索增强可编辑性的团队,在长提示下实现了最先进的性能。以PuLID模型为例,我们将其解构为字符特征分支和图像生成主分支,并进一步将字符特征分支解耦为三个主要模块:特征提取、特征融合和身份集成。我们从映射特征和偏移特征的组合以及动态身份集成的角度分析了可编辑性的来源,从而提高了字符定制的可编辑性。我们的方法无需训练,展示了其在灵活高效的字符定制图像生成方面的潜力。此外,这种免训练框架可用于增强任何配备字符特征分支的字符身份定制生成算法。在未来的工作中,我们将继续探索和研究引入训练模式的动态身份集成模块。我们相信动态身份集成具有强大的生命力,但仍需要设计包含更丰富多角度面部信息的损失函数,以进一步同时提高字符一致性和可编辑性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值