读论文《STORYMAKER: TOWARDS HOLISTIC CONSISTENT CHARACTERS IN TEXT-TO-IMAGE GENERATION》

论文题目:STORYMAKER: TOWARDS HOLISTIC CONSISTENT CHARACTERS IN TEXT-TO-IMAGE GENERATION

STORYMAKER:在文本到图像生成中实现整体一致的字符

举例说明,生成一连串的图片的主人公保持一致(面貌、衣服等)

论文地址:A template for the arxiv style 

项目地址:github.com

摘要

StoryMaker 模型旨在解决现有文本到图像生成方法中缺乏多角色场景全面一致性的问题。该模型不仅保持了面部特征的一致性,还关注了服装、发型和身体的一致性,从而有助于通过一系列图像来构建故事。通过使用位置感知感知重采样器(Positional-aware Perceiver Resampler,PPR)整合面部身份信息和裁剪后的角色图像,StoryMaker 能够生成具有独特角色特征的图像。此外,为了防止多个角色和背景相互干扰,模型使用均方误差(MSE)损失和分割掩模分别约束不同角色和背景的交叉注意力影响区域。StoryMaker 还通过 ControlNet 训练生成网络,以促进从姿势中解耦。实验表明,该方法在保持角色一致性方面非常有效,并且支持多种应用。

介绍 

当前的图像生成方法,如 DALL-E、Imagen 和 Stable Diffusion 等,虽然取得了显著进展,但仅使用文本进行个性化内容生成仍然具有挑战性。为了解决这个问题,提出了一些在测试时对特定主题进行微调的方法,但这些方法由于图像数量有限和微调成本高昂,泛化能力受到限制。因此,提出了在大规模数据集上训练的无需微调的方法。尽管这些方法能够在一定程度上保持面部特征的一致性,但它们在保持服装、发型和身体的一致性方面存在不足。

模型

他为我们提议的 StoryMaker 建模架构。面部图像和角色图像分别使用面部编码器和图像编码器进行嵌入,并通过我们提出的 Positional-aware Perceiver Resampler 模块进行优化。采用 LoRA 的解耦交叉注意力将这些嵌入注入扩散模型。在底部,我们用分割掩码说明了交叉注意力地图上的注意力损失。右侧也描绘了 PPR 模块的核心。

概述 StoryMaker 旨在从包含一个或两个角色的参考图像生成一系列新图像,保持角色的面部、服装、发型和身体的一致性。该模型通过文本提示允许背景、角色姿势和风格的改变,从而创建叙事。

参考信息提取

  • 面部信息提取:使用 Arcface 模型检测面部并提取对齐的面部嵌入。
  • 角色图像分割:使用预训练的 CLIP 视觉编码器提取角色的服装、发型和身体特征

 位置感知感知重采样器

  • E1 = R1(Fface): 使用独立重采样模块 R1 将面部特征转换为面部嵌入。
  • E2 = R2(Fcharacter): 使用另一个独立重采样模块 R2 将角色特征转换为角色嵌入。
  • Ei = MLP(Cat(E1, E2) + Epos): 将面部嵌入和角色嵌入连接,并添加位置嵌入以区分不同的角色。
  • ci = Cat(Ebg, Reshape(Ei, (N ∗ L, D)): 引入可学习的背景嵌入 Ebg 并连接到最终嵌入中。

解耦交叉注意力 

        使用 IP-Adapter 提出的解耦交叉注意力将提取的参考信息嵌入到文本到图像模型中。

从角色图像中解耦姿势 

  • 姿势多样性:通过 ControlNet 训练网络,实现姿势多样性。
  • 推理时的灵活性:在推理时,可以丢弃 ControlNet,直接通过文本提示控制生成角色的姿势,或者提供新的姿势进行引导。

 使用 LoRA 训练

  • LoRA 集成:在每个交叉注意力层中集成 LoRA 层,以提高 ID 一致性、保真度和质量。
  • 训练策略:冻结 U-Net 模型的原始权重,只训练 PPR 模块和 LoRA 权重。
使用掩模约束交叉注意力图的损失
  • 交叉注意力图:在每个角色的交叉注意力图中,通过求和其 L 个 token 得到 A。
  • P = Softmax(QK^T / \sqrt{d}),A = \sum _{k=1}^L P_k
  • 注意力损失:通过计算交叉注意力图的 softmax 值与分割掩模之间的 MSE 损失来约束交叉注意力的影响区域。
  • L_{attn} = \frac{1}{N+1} \sum ^{N+1} _{k=1} || A_k -M_k ||^2_2

总体损失 

  • 损失组合:在训练中,将交叉注意力图的损失平均化,并与扩散损失结合。
  • L = L_{SD} +\frac {\lambda}{M} \sum ^M _{l=1} L_{attn}

 

实验 (Experiments)

作者收集了一个包含 500K 图像的内部角色数据集,并使用 CogVLM 自动生成图像标题。在实验中,作者将 StoryMaker 与其他四种无需微调的角色生成模型进行了比较,包括 MM-Diff、PhotoMaker-V2、InstantID 和 IP-Adapter-FaceID。实验结果表明,StoryMaker 在保持角色一致性方面表现优于现有无需微调的模型,尤其是在多角色场景中。

结论 (Conclusion)

StoryMaker 通过保持角色的面部、服装、发型和身体的一致性,增强了通过文本提示创建背景、姿势和风格变化的叙事能力。该模型在多角色场景中保持角色身份和一致性方面优于现有方法,并且通过服装交换、角色插值和与其他生成插件的集成等多样化应用,展示了其在个性化图像生成中的潜力。

限制 (Limitations)

尽管 StoryMaker 在多角色图像生成方面取得了显著进展,但作者指出,如果没有明确的姿势指导,生成的角色姿势可能会出现异常,缺乏和谐性。此外,同时生成三个或更多角色仍然是一个挑战,生成的服装的保真度和细节也有待提高。

论文还提到了 StoryMaker 的代码和模型权重可以在 GitHub 上找到,这为有兴趣进一步探索该模型的研究人员提供了便利

### CLIP4HOI 研究内容及其在零样本 HOI 检测中的应用 CLIP4HOI 是一项基于 CLIP(Contrastive Language–Image Pre-training)模型的研究,旨在解决人类-物体交互(Human-Object Interaction, HOI)检测中的零样本学习问题。通过利用 CLIP 提供的视觉语言对齐能力,CLIP4HOI 能够在没有特定类别标注的情况下识别新的交互行为。 #### 论文核心研究内容 1. **构建零样本 HOI 分类器** CLIP4HOI 利用 CLIP 的文本编码器 TextEnc 来生成分类器权重。具体来说,每个 HOI 类别被转换为一个带有手工制作模板的句子,例如“一个人的照片 [Verb-ing] a [Object]”。这些模板输入到 CLIP 的文本编码器中,以生成 HOI 分类器 $ E_{inter} \in \mathbb{R}^{K_h \times D} $,其中 $ K_h $ 是 HOI 类别的数量,$ D $ 是嵌入空间的维度[^1]。 2. **应对低数据条件下的挑战** 在 HOI 检测中,动词识别面临长尾分布和零样本学习的问题。为了解决这些问题,CLIP4HOI 开发了一种基于视觉语义算法的动词类别标识方法,能够从少量或没有标注的数据中挖掘先验知识并进行有效的分类。 3. **多方面挖掘先验知识** 该方法直接从 CLIP 中检索学习到的知识,而不是依赖传统的知识蒸馏技术。通过 HOI 识别的组成性质,CLIP4HOI 从多个角度挖掘潜在的交互模式,从而提升模型在低数据条件下的性能。 #### 实践应用:零样本 HOI 检测 CLIP4HOI 在零样本 HOI 检测中的实践主要体现在以下几个方面: 1. **跨模态对齐** 通过 CLIP 的视觉语言对齐能力,CLIP4HOI 可以将图像中的视觉信息与文本描述的语义信息进行匹配。这种跨模态对齐使得模型能够在没有标注的情况下理解新的交互行为。 2. **零样本分类器的应用** 利用 CLIP 的文本编码器生成的分类器权重,CLIP4HOI 可以直接对未见过的 HOI 类别进行分类。例如,对于一个新出现的交互行为“一个人正在修理一辆自行车”,模型可以通过解析其对应的文本模板并将其与图像特征进行匹配来完成检测。 3. **实验验证** 在实际测试中,CLIP4HOI 表现出良好的性能,尤其是在零样本条件下。通过与传统方法的对比,CLIP4HOI 展示了更强的泛化能力和鲁棒性,证明了其在低数据条件下的有效性[^4]。 #### 技术优势与创新点 1. **端到端的零样本检测框架** CLIP4HOI 提出了一种端到端的框架,直接利用 CLIP 的预训练知识,避免了复杂的知识蒸馏过程。这种方法简化了模型设计,并提升了效率。 2. **多模态融合策略** 通过结合视觉和语言信息,CLIP4HOI 实现了更深层次的语义理解。这种多模态融合策略不仅提高了模型的准确性,还增强了其对复杂场景的适应能力。 3. **灵活的模板设计** 手工制作的模板为 HOI 类别的描述提供了标准化格式,同时允许根据具体任务需求进行调整。这种灵活性使得 CLIP4HOI 能够应用于多种不同的交互检测场景。 ### 示例代码 以下是一个简单的 Python 代码片段,展示了如何使用 CLIP 文本编码器生成 HOI 分类器权重: ```python import clip import torch # 加载预训练的 CLIP 模型 device = "cuda" if torch.cuda.is_available() else "cpu" model, preprocess = clip.load("ViT-B/32", device=device) # 定义 HOI 类别的模板 hoi_templates = [ "a photo of a person [verb-ing] a [object]", # 添加更多模板... ] # 生成分类器权重 hoi_descriptions = [template.replace("[verb-ing]", verb).replace("[object]", obj) for template in hoi_templates for verb in ["holding", "using"] for obj in ["phone", "book"]] text_inputs = clip.tokenize(hoi_descriptions).to(device) with torch.no_grad(): text_features = model.encode_text(text_inputs) # 输出分类器权重 print(text_features.shape) # 输出: (Kh, D),其中 Kh 是 HOI 类别的数量,D 是嵌入维度 ``` ###
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

请站在我身后

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值