论文标题
Compositional Text-to-Image Synthesis with Attention Map Control of Diffusion Models 基于注意力图控制的扩散模型的组合文本到图像合成
论文链接
Compositional Text-to-Image Synthesis with Attention Map Control of Diffusion Models论文下载
论文作者
Ruichen Wang, Zekang Chen, Chen Chen, Jian Ma, Haonan Lu, Xiaodong Lin
内容简介
本文提出了一种新颖的组合文本到图像(T2I)合成方法,旨在解决现有扩散模型在生成图像时的语义对齐问题。尽管扩散模型在生成高质量图像方面表现出色,但它们在处理复杂的文本描述时常常出现属性泄漏、实体泄漏和缺失实体等问题。为了解决这些问题,作者提出了一种基于预测目标框的注意力掩码控制策略。该方法首先训练一个BoxNet来预测每个实体的边界框,然后根据这些框对交叉和自注意力图进行独特的掩码控制,从而确保生成的图像更符合文本提示的语义。实验结果表明,该方法能够有效提高生成图像的保真度和一致性,并且可以作为现成的插件集成到现有的T2I生成器中。
分点关键点
-
BoxNet模块
- BoxNet是一个目标框预测模块,能够在扩散模型的正向过程中为每个实体估计目标位置。通过训练,BoxNet能够在每个时间步生成与原始扩散模型生成的实体位置高度一致的边界框。
-
注意力掩码控制策略
- 本文提出的注意力掩码控制策略通过对交叉和自注意力图施加独特的掩码控制,确保生成的实体及其属性位于预测的框内。这种方法有效地解决了生成过程中的属性泄漏和实体重叠问题。
-
高保真度合成
- 通过限制每个文本标记在图像中的注意力区域,本文的方法能够生成更语义上准确的合成结果。实验表明,该方法在多个数据集上生成的图像与给定描述的对齐程度显著提高。
-
易于集成
- 该方法的设计使其能够轻松集成到现有的基于交叉注意力的T2I生成器中,提供了一个即用型的解决方案,增强了扩散模型的组合生成能力。
- 该方法的设计使其能够轻松集成到现有的基于交叉注意力的T2I生成器中,提供了一个即用型的解决方案,增强了扩散模型的组合生成能力。
论文代码
代码链接:https://github.com/OPPO-Mente-Lab/attention-mask-control
中文关键词
- 组合文本到图像合成
- 扩散模型
- 注意力掩码控制
- BoxNet
- 属性泄漏
- 实体泄漏
- 生成图像保真度
AAAI论文合集:
希望这些论文能帮到你!如果觉得有用,记得点赞关注哦~ 后续还会更新更多论文合集!!