AAAI2024最佳解读|Compositional Text-to-Image Synthesis with Attention Map Control of Diffusion Models

paixiaoxin

于 2025-03-11 14:50:22 发布

阅读量679

点赞数 11

分类专栏：论文合集文献阅读文章标签：组合文本到图像合成扩散模型注意力掩码控制属性泄漏实体泄漏生成图像保真度

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/paixiaoxin/article/details/145852869

版权

文献阅读同时被 2 个专栏收录

366 篇文章

订阅专栏

351 篇文章

订阅专栏

论文标题

Compositional Text-to-Image Synthesis with Attention Map Control of Diffusion Models 基于注意力图控制的扩散模型的组合文本到图像合成

论文链接

Compositional Text-to-Image Synthesis with Attention Map Control of Diffusion Models论文下载

论文作者

Ruichen Wang, Zekang Chen, Chen Chen, Jian Ma, Haonan Lu, Xiaodong Lin

内容简介

本文提出了一种新颖的组合文本到图像（T2I）合成方法，旨在解决现有扩散模型在生成图像时的语义对齐问题。尽管扩散模型在生成高质量图像方面表现出色，但它们在处理复杂的文本描述时常常出现属性泄漏、实体泄漏和缺失实体等问题。为了解决这些问题，作者提出了一种基于预测目标框的注意力掩码控制策略。该方法首先训练一个BoxNet来预测每个实体的边界框，然后根据这些框对交叉和自注意力图进行独特的掩码控制，从而确保生成的图像更符合文本提示的语义。实验结果表明，该方法能够有效提高生成图像的保真度和一致性，并且可以作为现成的插件集成到现有的T2I生成器中。在这里插入图片描述

分点关键点

BoxNet模块
- BoxNet是一个目标框预测模块，能够在扩散模型的正向过程中为每个实体估计目标位置。通过训练，BoxNet能够在每个时间步生成与原始扩散模型生成的实体位置高度一致的边界框。
注意力掩码控制策略
- 本文提出的注意力掩码控制策略通过对交叉和自注意力图施加独特的掩码控制，确保生成的实体及其属性位于预测的框内。这种方法有效地解决了生成过程中的属性泄漏和实体重叠问题。
高保真度合成
- 通过限制每个文本标记在图像中的注意力区域，本文的方法能够生成更语义上准确的合成结果。实验表明，该方法在多个数据集上生成的图像与给定描述的对齐程度显著提高。
易于集成
- 该方法的设计使其能够轻松集成到现有的基于交叉注意力的T2I生成器中，提供了一个即用型的解决方案，增强了扩散模型的组合生成能力。

论文代码

代码链接：https://github.com/OPPO-Mente-Lab/attention-mask-control

中文关键词

组合文本到图像合成
扩散模型
注意力掩码控制
BoxNet
属性泄漏
实体泄漏
生成图像保真度

AAAI论文合集：

AAAI论文合集

希望这些论文能帮到你！如果觉得有用，记得点赞关注哦~ 后续还会更新更多论文合集！！

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。