2023年12月,Google通过子公司DeepMind发布了最新图像生成工具—Imagen 2。这代表着Google文生图新高度。其在官方平台上说Imagen 2的最大亮点是“它能生成高质量、逼真、且与用户提示更加契合的图像。”
因为没找到Imagen 2公开的论文,咱们暂时研究谷歌于2022年5月发布的Imagen。原论文阐述得更多的是对以前方法的组合或改进,没有提出新模型,偏工程性质。所以本篇关注在模型细节、实验实现方面。
对比OpenAI公司,DALLE2于2022年4月,DALLE3于2023年9月发布。
Abstract
我们提出了 Imagen,一个文本到图像扩散模型,具有前所未有的逼真程度和深度的语言理解能力。Imagen 基于大型 transformer 语言模型理解文本,并依赖扩散模型在高保真图像生成方面的能力。我们的关键发现是,纯文本语料库上预训练的通用大型语言模型(例如 T5)在编码用于图像合成的文本方面出奇地有效:增加 Imagen 中语言模型的大小比增加图像扩散模型的大小更能提高样本保真度和图像文本对齐。Imagen 在 COCO 数据集上达到了 7.27 的最新 FID 分数,而无需对 COCO 进行训练,而且人类评估者发现 Imagen 样本在图像-文本对齐中与 COCO 数据本身相当。为了更深入地评估文本到图像模型,我们引入了 DrawBench,这是一个全面且具有挑战性的文本到图像模型基准。使用 D