2019-2021 文本生成图片 Text To Image(T2I) Synthesis 论文整理

本文汇总了近年来关于文本到图像生成的研究,涵盖了多种对抗性神经网络模型,如Semantic Enhancement, Resolution Enhancement, Diversity Enhancement, Motion Enhancement GANs等。文章探讨了如何利用条件生成对抗网络、对比学习、注意力机制、语义解析等技术提高图像质量和多样性。重点论文包括ControlGAN、CPGAN、DM-GAN、PerceptionGAN、SAM-GAN等,这些模型在生成逼真图像、图像操纵和语义一致性方面取得进展。此外,还提到了用于评估生成图像的新指标和数据集。" 132988096,20037795,Spring Cloud Config 实现微服务配置管理,"['spring cloud', '微服务', '配置管理']

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

参考:文本生成图像!GAN生成对抗网络相关论文大汇总

A Survey and Taxonomy of Adversarial Neural Networks for Text-to-Image Synthesis

介绍了关于GAN生成对抗网络的相关Text-to-Image论文,将其分类为Semantic Enhancement GANs, Resolution Enhancement GANs, Diversity Enhancement GANs, Motion Enhancement GANs四类,介绍了代表性model,如下图所示。
  详细内容:https://www.cnblogs.com/zyyz1126/p/14474382.html 末尾

Adversarial Learning of Semantic Relevance in Text to Image Synthesis

以conditional GANs为基础,discriminator的auxiliary task。图片diversity高。基于负采样。

Controllable Text-to-Image Generation

ControlGAN。可以控制图片局部生成,一个word-level的generator。有github代码:https://github.com/mrlibw/ControlGAN。更多的可以看同一作者写的ManiGAN。
   详细内容:https://www.cnblogs.com/zyyz1126/p/14495753.html
   github

CPGAN Full-Spectrum Content-Parsing Generative Adversarial Networks for Text-to-Image Synthesis

content parsing。设计了一个memory structure来存储一个单词对应的图片。使用了一个conditional discriminator来判断文本图片局部的联系。
  详细内容:https://blog.youkuaiyun.com/qq_26136211/article/details/115067516
  github没有训练代码。

Cross-Modal Contrastive Learning for Text-to-Image Generation

通过contrastive learning最大化图片对的互信息。没有object-level的额外注释、单层模型。

Cycle Text-to-Image GAN with BERT

基于Attention GAN的改进。引入循环机制,将生成的图片翻译回文本。以BERT预训练的word embed

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值