ChatPainter: Improving Text to Image Generation using Dialogue 利用对话来改善文字生成图片

本文提出了一种通过对话接口丰富文本描述的方法,旨在解决图像生成任务中因文本描述过于简略而导致的目标物细节丢失问题。该方法特别适用于含有多个目标的复杂场景,如COCO数据集,通过增加额外信息来提高生成图像的质量。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

为了解决文字描述中含有多个目标的问题,本文提出了一个利用对话提供更多的额外信息。因为通常一个文本描述是不能够捕获图片中所有的细节信息而且模型也不能够知道图像中的目标对应了描述中的哪一个单词。

仅从效果上看是不好的,但作者实验inception score高

从数据集分析,flower 或者 cub的描述通常只是对单一目标进行详细描述,这样但前的几个任务生成的效果是很好的, 但是,在COCO数据集中,由于存在多个目标,而且在一个描述中不包含所有目标的前景背景的细节描述。
像这样的图片,相同的COCO描述,完全不同的图片,缺少更多细节描述

具体操作

提供一个对话接口,一个提问者,这能看到文本描述,一个回答者,有文本和图像。可以用到任何生成模型上。感觉实质上是丰富了文本描述从而得到更多细节的图像信息。

本篇论文将对话接口直接用于stackGan中,贡献点略少。

可尝试用于之后自己的生成模型中

在stageI 和stage II中都加入了这个额外的描述
损失函数中加入了对话描

结果如图
inception Loss

效果不如通过预测语义布局达到效果的之前个人简书有介绍

文字预测语义布局来生成图片链接(https://www.jianshu.com/p/e374182606c5

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值