参考:文本生成图像!GAN生成对抗网络相关论文大汇总
A Survey and Taxonomy of Adversarial Neural Networks for Text-to-Image Synthesis
介绍了关于GAN生成对抗网络的相关Text-to-Image论文,将其分类为Semantic Enhancement GANs, Resolution Enhancement GANs, Diversity Enhancement GANs, Motion Enhancement GANs四类,介绍了代表性model,如下图所示。
详细内容:https://www.cnblogs.com/zyyz1126/p/14474382.html 末尾
Adversarial Learning of Semantic Relevance in Text to Image Synthesis
以conditional GANs为基础,discriminator的auxiliary task。图片diversity高。基于负采样。
Controllable Text-to-Image Generation
ControlGAN。可以控制图片局部生成,一个word-level的generator。有github代码:https://github.com/mrlibw/ControlGAN。更多的可以看同一作者写的ManiGAN。
详细内容:https://www.cnblogs.com/zyyz1126/p/14495753.html
github
CPGAN Full-Spectrum Content-Parsing Generative Adversarial Networks for Text-to-Image Synthesis
content parsing。设计了一个memory structure来存储一个单词对应的图片。使用了一个conditional discriminator来判断文本图片局部的联系。
详细内容:https://blog.youkuaiyun.com/qq_26136211/article/details/115067516
github没有训练代码。
Cross-Modal Contrastive Learning for Text-to-Image Generation
通过contrastive learning最大化图片对的互信息。没有object-level的额外注释、单层模型。
Cycle Text-to-Image GAN with BERT
基于Attention GAN的改进。引入循环机制,将生成的图片翻译回文本。以BERT预训练的word embed