CogView阅读笔记【文生图模型】

原创

已于 2024-02-04 17:53:22 修改 · 690 阅读

CC 4.0 BY-SA版权

文章标签：

于 2024-01-25 11:42:24 首次发布

1. 基本信息

题目：CogView: Mastering Text-to-Image Generation via Transformers
时间：2021.11
发表：NIPS 2021
机构：清华，达摩院，智源研究院
作者：ming等
链接直达：github/paper/project
关键词：AIGC，text to image，VQVAE
概括：使用VQVAE，得到image的tokens，以及SentencePiece得到的text的tokens，输入到Transformer中训练。
摘要翻译：长期以来，一般领域的文本到图像生成一直是一个悬而未决的问题，这需要强大的生成模型和跨模态理解。我们提出了 CogView，一个具有 VQ-VAE 分词器的 40 亿参数 Transformer 来解决这个问题。我们还演示了各种下游任务的微调策略，例如风格学习、超分辨率、文本图像排名和时装设计，以及稳定预训练的方法，例如消除 NaN 损失。CogView 在模糊的 MS COCO 数据集上实现了最先进的 FID，优于以前基于 GAN 的模型和最近的类似工作 DALL-E。