51-35 谷歌绘画模型 Imagen

Google的DeepMind发布了文本到图像生成工具Imagen,该模型利用大型语言模型实现前所未有的图像质量和深度语言理解。Imagen基于T5-XXL语言模型和扩散模型,通过无分类器指导和动态阈值采样技术,解决了高引导权重下图像质量下降的问题。在COCO数据集上,Imagen的FID分数达到7.27,与DALL-E 2和GLIDE等方法相比,其图像质量和文本对齐更优。同时,Imagen引入了DrawBench,一个全面的文本到图像模型评估基准,进一步验证了其在复杂提示下的出色性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

2023年12月,Google通过子公司DeepMind发布了最新图像生成工具—Imagen 2。这代表着Google文生图新高度。其在官方平台上说Imagen 2的最大亮点是“它能生成高质量、逼真、且与用户提示更加契合的图像。”

因为没找到Imagen 2公开的论文,咱们暂时研究谷歌于2022年5月发布的Imagen。原论文阐述得更多的是对以前方法的组合或改进,没有提出新模型,偏工程性质。所以本篇关注在模型细节、实验实现方面。

对比OpenAI公司,DALLE2于2022年4月,DALLE3于2023年9月发布。

Abstract

我们提出了 Imagen,一个文本到图像扩散模型,具有前所未有的逼真程度和深度的语言理解能力。Imagen 基于大型 transformer 语言模型理解文本,并依赖扩散模型在高保真图像生成方面的能力。我们的关键发现是,纯文本语料库上预训练的通用大型语言模型(例如 T5)在编码用于图像合成的文本方面出奇地有效:增加 Imagen 中语言模型的大小比增加图像扩散模型的大小更能提高样本保真度和图像文本对齐。Imagen 在 COCO 数据集上达到了 7.27 的最新 FID 分数,而无需对 COCO 进行训练,而且人类评估者发现 Imagen 样本在图像-文本对齐中与 COCO 数据本身相当。为了更深入地评估文本到图像模型,我们引入了 DrawBench,这是一个全面且具有挑战性的文本到图像模型基准。使用 D

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

深圳季连AIgraphX

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值