51-35 谷歌绘画模型 Imagen

深圳季连AIgraphX

已于 2024-04-09 09:23:26 修改

阅读量1k

点赞数 8

分类专栏： aiXpilot 智驾大模型1 文章标签： Imagen AIGC 自动驾驶智慧城市计算机视觉

于 2024-04-02 13:54:49 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_45035094/article/details/137204694

版权

aiXpilot 智驾大模型1 专栏收录该内容

59 篇文章 ¥89.90 ¥99.00

订阅专栏

超级会员免费看

Google的DeepMind发布了文本到图像生成工具Imagen，该模型利用大型语言模型实现前所未有的图像质量和深度语言理解。Imagen基于T5-XXL语言模型和扩散模型，通过无分类器指导和动态阈值采样技术，解决了高引导权重下图像质量下降的问题。在COCO数据集上，Imagen的FID分数达到7.27，与DALL-E 2和GLIDE等方法相比，其图像质量和文本对齐更优。同时，Imagen引入了DrawBench，一个全面的文本到图像模型评估基准，进一步验证了其在复杂提示下的出色性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

2023年12月，Google通过子公司DeepMind发布了最新图像生成工具—Imagen 2。这代表着Google文生图新高度。其在官方平台上说Imagen 2的最大亮点是“它能生成高质量、逼真、且与用户提示更加契合的图像。”

因为没找到Imagen 2公开的论文，咱们暂时研究谷歌于2022年5月发布的Imagen。原论文阐述得更多的是对以前方法的组合或改进，没有提出新模型，偏工程性质。所以本篇关注在模型细节、实验实现方面。

对比OpenAI公司，DALLE2于2022年4月，DALLE3于2023年9月发布。

Abstract

我们提出了 Imagen，一个文本到图像扩散模型，具有前所未有的逼真程度和深度的语言理解能力。Imagen 基于大型 transformer 语言模型理解文本，并依赖扩散模型在高保真图像生成方面的能力。我们的关键发现是，纯文本语料库上预训练的通用大型语言模型（例如 T5）在编码用于图像合成的文本方面出奇地有效：增加 Imagen 中语言模型的大小比增加图像扩散模型的大小更能提高样本保真度和图像文本对齐。Imagen 在 COCO 数据集上达到了 7.27 的最新 FID 分数，而无需对 COCO 进行训练，而且人类评估者发现 Imagen 样本在图像-文本对齐中与 COCO 数据本身相当。为了更深入地评估文本到图像模型，我们引入了 DrawBench，这是一个全面且具有挑战性的文本到图像模型基准。使用 D