AAAI2024最佳解读|Compositional Text-to-Image Synthesis with Attention Map Control of Diffusion Models

论文标题

Compositional Text-to-Image Synthesis with Attention Map Control of Diffusion Models 基于注意力图控制的扩散模型的组合文本到图像合成

论文链接

Compositional Text-to-Image Synthesis with Attention Map Control of Diffusion Models论文下载

论文作者

Ruichen Wang, Zekang Chen, Chen Chen, Jian Ma, Haonan Lu, Xiaodong Lin

内容简介

本文提出了一种新颖的组合文本到图像(T2I)合成方法,旨在解决现有扩散模型在生成图像时的语义对齐问题。尽管扩散模型在生成高质量图像方面表现出色,但它们在处理复杂的文本描述时常常出现属性泄漏、实体泄漏和缺失实体等问题。为了解决这些问题,作者提出了一种基于预测目标框的注意力掩码控制策略。该方法首先训练一个BoxNet来预测每个实体的边界框,然后根据这些框对交叉和自注意力图进行独特的掩码控制,从而确保生成的图像更符合文本提示的语义。实验结果表明,该方法能够有效提高生成图像的保真度和一致性,并且可以作为现成的插件集成到现有的T2I生成器中。在这里插入图片描述

分点关键点在这里插入图片描述

  1. BoxNet模块

    • BoxNet是一个目标框预测模块,能够在扩散模型的正向过程中为每个实体估计目标位置。通过训练,BoxNet能够在每个时间步生成与原始扩散模型生成的实体位置高度一致的边界框。
  2. 注意力掩码控制策略

    • 本文提出的注意力掩码控制策略通过对交叉和自注意力图施加独特的掩码控制,确保生成的实体及其属性位于预测的框内。这种方法有效地解决了生成过程中的属性泄漏和实体重叠问题。
  3. 高保真度合成

    • 通过限制每个文本标记在图像中的注意力区域,本文的方法能够生成更语义上准确的合成结果。实验表明,该方法在多个数据集上生成的图像与给定描述的对齐程度显著提高。
  4. 易于集成

    • 该方法的设计使其能够轻松集成到现有的基于交叉注意力的T2I生成器中,提供了一个即用型的解决方案,增强了扩散模型的组合生成能力。在这里插入图片描述

论文代码

代码链接:https://github.com/OPPO-Mente-Lab/attention-mask-control

中文关键词

  1. 组合文本到图像合成
  2. 扩散模型
  3. 注意力掩码控制
  4. BoxNet
  5. 属性泄漏
  6. 实体泄漏
  7. 生成图像保真度

AAAI论文合集:

AAAI论文合集

希望这些论文能帮到你!如果觉得有用,记得点赞关注哦~ 后续还会更新更多论文合集!!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值