论文阅读PreciseControl: Enhancing Text-To-Image Diffusion Models with Fine-Grained Attribute Control

在这里插入图片描述

1. 这篇论文要解决什么问题(problem)?

论文主要解决的问题是:现有的文本到图像(T2I)扩散模型在面部个性化生成和精细属性编辑方面存在局限性。具体表现为:

  • 身份保留不足:现有方法在面部个性化生成时难以忠实保留输入图像的身份特征。
  • 精细控制不足:仅依赖文本提示无法实现连续、精细的面部属性编辑(如微笑程度、年龄调整等)。
  • 多主体合成的属性混合问题:在生成包含多个主体的图像时,不同主体的属性容易相互干扰(如年龄、发型等)。

2. 已有工作的思路以及不足之处(existing work)有哪些?

已有工作分类及不足:

  1. 通用个性化方法(如Textual Inversion、Dreambooth):

    • 思路:通过优化对象特定的标记嵌入或微调模型来学习新概念。
    • 不足:难以保留面部身份特征,且无法实现精细属性控制。
  2. 面部专用方法(如Celeb Basis、Photoverse):

    • 思路:利用名人名称基或双分支条件(文本+图像)改进面部嵌入。
    • 不足:生成结果可能缺乏真实感(如卡通化),且不支持精细属性编辑。
  3. StyleGAN模型

    • 思路:利用解耦的 W + \mathcal{W}+ W+空间实现精细属性编辑。
    • 不足:仅适用于裁剪后的肖像,无法生成多样化背景或多主体场景。
  4. 多主体合成方法

    • 不足:联合微调会导致属性混合(如一个主体的年龄特征转移到另一主体)。

3. 本文insight?

  • 结合T2I模型与StyleGAN的优势:利用T2I模型的通用生成能力(如多样化背景)和StyleGAN的 W + \mathcal{W}+ W+空间解耦特性(精细属性控制)。
  • W + \mathcal{W}+ W+空间作为桥梁:通过将 W + \mathcal{W}+ W+空间条件化到T2I模型中,既能保留身份特征,又能实现连续属性编辑。
  • 时间依赖的标记嵌入:为每个扩散时间步生成不同的标记嵌入,提升身份保留能力。

4. 解决方法?

基本思想:

  1. 条件化T2I模型:通过训练一个轻量级MLP(潜在适配器 M \mathcal{M} M),将StyleGAN的 W + \mathcal{W}+ W+空间映射到T2I模型的标记嵌入空间。
  2. 两阶段训练
    • 预训练:在面部数据集上训练 M \mathcal{M} M,结合扩散损失、正则化损失和身份损失。
    • 主体特定微调:使用LoRA对U-Net进行低秩更新,进一步提升身份保留。
  3. 多主体合成:通过并行扩散链(每个主体独立生成)和实例掩码融合,避免属性混合。

模型的输入输出:

  • 输入
    • 单张面部图像(个性化生成)或多张图像(多主体合成)。
    • 可选文本提示(控制生成场景或风格)。
    • 属性编辑方向(如微笑、年龄)和强度参数 β \beta β(用于 W + \mathcal{W}+ W+空间操作)。
  • 输出
    • 个性化生成的图像(保留输入身份,符合文本描述)。
    • 支持连续属性编辑(如调整微笑程度)或多主体合成(无属性混合)。

关键模块:

  • 潜在适配器 M \mathcal{M} M:输入为 W &
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值