读论文《STORYMAKER: TOWARDS HOLISTIC CONSISTENT CHARACTERS IN TEXT-TO-IMAGE GENERATION》

最新推荐文章于 2025-12-26 17:53:15 发布

原创最新推荐文章于 2025-12-26 17:53:15 发布 · 1.3k 阅读

30 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #人工智能 #算法 #AIGC

读论文同时被 3 个专栏收录

68 篇文章

订阅专栏

跨模态处理

14 篇文章

订阅专栏

大模型

8 篇文章

订阅专栏

论文题目：STORYMAKER: TOWARDS HOLISTIC CONSISTENT CHARACTERS IN TEXT-TO-IMAGE GENERATION

STORYMAKER：在文本到图像生成中实现整体一致的字符

举例说明，生成一连串的图片的主人公保持一致（面貌、衣服等）

论文地址：A template for the arxiv style

项目地址：github.com

摘要

StoryMaker 模型旨在解决现有文本到图像生成方法中缺乏多角色场景全面一致性的问题。该模型不仅保持了面部特征的一致性，还关注了服装、发型和身体的一致性，从而有助于通过一系列图像来构建故事。通过使用位置感知感知重采样器（Positional-aware Perceiver Resampler，PPR）整合面部身份信息和裁剪后的角色图像，StoryMaker 能够生成具有独特角色特征的图像。此外，为了防止多个角色和背景相互干扰，模型使用均方误差（MSE）损失和分割掩模分别约束不同角色和背景的交叉注意力影响区域。StoryMaker 还通过 ControlNet 训练生成网络，以促进从姿势中解耦。实验表明，该方法在保持角色一致性方面非常有效，并且支持多种应用。

介绍

当前的图像生成方法，如 DALL-E、Imagen 和 Stable Diffusion 等，虽然取得了显著进展，但仅使用文本进行个性化内容生成仍然具有挑战性。为了解决这个问题，提出了一些在测试时对特定主题进行微调的方法，但这些方法由于图像数量有限和微调成本高昂，泛化能力受到限制。因此，提出了在大规模数据集上训练的无需微调的方法。尽管这些方法能够在一定程度上保持面部特征的一致性，但它们在保持服装、发型和身体的一致性方面存在不足。

模型

他为我们提议的 StoryMaker 建模架构。面部图像和角色图像分别使用面部编码器和图像编码器进行嵌入，并通过我们提出的 Positional-aware Perceiver Resampler 模块进行优化。采用 LoRA 的解耦交叉注意力将这些嵌入注入扩散模型。在底部，我们用分割掩码说明了交叉注意力地图上的注意力损失。右侧也描绘了 PPR 模块的核心。

概述 StoryMaker 旨在从包含一个或两个角色的参考图像生成一系列新图像，保持角色的面部、服装、发型和身体的一致性。该模型通过文本提示允许背景、角色姿势和风格的改变，从而创建叙事。

参考信息提取

面部信息提取：使用 Arcface 模型检测面部并提取对齐的面部嵌入。
角色图像分割：使用预训练的 CLIP 视觉编码器提取角色的服装、发型和身体特征

位置感知感知重采样器

E1 = R1(Fface): 使用独立重采样模块 R1 将面部特征转换为面部嵌入。
E2 = R2(Fcharacter): 使用另一个独立重采样模块 R2 将角色特征转换为角色嵌入。
Ei = MLP(Cat(E1, E2) + Epos): 将面部嵌入和角色嵌入连接，并添加位置嵌入以区分不同的角色。
ci = Cat(Ebg, Reshape(Ei, (N ∗ L, D)): 引入可学习的背景嵌入 Ebg 并连接到最终嵌入中。

解耦交叉注意力

使用 IP-Adapter 提出的解耦交叉注意力将提取的参考信息嵌入到文本到图像模型中。

从角色图像中解耦姿势

姿势多样性：通过 ControlNet 训练网络，实现姿势多样性。
推理时的灵活性：在推理时，可以丢弃 ControlNet，直接通过文本提示控制生成角色的姿势，或者提供新的姿势进行引导。

使用 LoRA 训练

LoRA 集成：在每个交叉注意力层中集成 LoRA 层，以提高 ID 一致性、保真度和质量。
训练策略：冻结 U-Net 模型的原始权重，只训练 PPR 模块和 LoRA 权重。

使用掩模约束交叉注意力图的损失

交叉注意力图：在每个角色的交叉注意力图中，通过求和其 L 个 token 得到 A。
$P = Softmax(QK^T / \sqrt{d})$ , $A = \sum _{k=1}^L P_k$
注意力损失：通过计算交叉注意力图的 softmax 值与分割掩模之间的 MSE 损失来约束交叉注意力的影响区域。
$L_{attn} = \frac{1}{N+1} \sum ^{N+1} _{k=1} || A_k -M_k ||^2_2$

总体损失

损失组合：在训练中，将交叉注意力图的损失平均化，并与扩散损失结合。
$L = L_{SD} +\frac {\lambda}{M} \sum ^M _{l=1} L_{attn}$

实验 (Experiments)

作者收集了一个包含 500K 图像的内部角色数据集，并使用 CogVLM 自动生成图像标题。在实验中，作者将 StoryMaker 与其他四种无需微调的角色生成模型进行了比较，包括 MM-Diff、PhotoMaker-V2、InstantID 和 IP-Adapter-FaceID。实验结果表明，StoryMaker 在保持角色一致性方面表现优于现有无需微调的模型，尤其是在多角色场景中。