国内首个中文原生DiT架构SOTA大模型全面开源!———Hunyuan-DiT技术报告详解

目前,腾讯混元文生图大模型已在 Hugging Face 平台及 Github 上发布,包含模型权重、推理代码、模型算法等完整模型。

且不管是企业还是个人开发者,全部免费可用。

开源地址: https://dit.hunyuan.tencent.com/

下面来详细介绍下混元大模型的技术细节,期待国内更多大模型能发布,让行业应用全面爆发:

Hunyuan-DiT,这是一种具备细粒度理解能力的文本到图像扩散transformer,能够处理英文和中文。为了构建Hunyuan-DiT,精心设计了transformer结构、文本编码器和位置编码。此外,还从头开始建立了完整的数据pipeline,以更新和评估数据,进行迭代的模型优化。

为了实现细粒度的语言理解,训练了一种多模态大语言模型,用于细化图像的标题描述。最终,Hunyuan-DiT能够与用户进行多轮多模态对话,根据上下文生成和优化图像。通过我们综合的人类评估协议,超过50位专业评估员参与评估,Hunyuan-DiT在中文到图像生成方面相比其他开源模型设立了新的标杆。

介绍

基于扩散的文本生成图像模型,如DALL-E、Stable Diffusion和Pixart,已经展示了生成前所未有质量图像的能力。然而,它们缺乏直接理解中文提示的能力,限制了其在中文文本提示下的图像生成潜力。为了提高中文理解能力,提出了AltDiffusion、PAI-Diffusion和Taiyi,但它们的生成质量仍需改进。

在本报告中,介绍了构建Hunyuan-DiT的完整流程,该模型可以根据英文和中文提示生成不同分辨率的高质量详细图像。

Hunyuan-DiT的贡献:

  • (1) 设计了基于扩散transformer的新网络架构。它结合了两个文本编码器:双语CLIP和多语言T5编码器,以提高语言理解能力并增加上下文长度。

  • (2) 从头构建了一个数据处理pipeline,用于添加数据、过滤数据、维护数据、更新数据并应用数据来优化我们的文本到图像模型。具体来说,我们设计了一个称为“数据护航”的迭代过程来检查新数据的有效性。

  • (3) 使用多模态大语言模型(MLLM)来优化图像-文本数据对中的原始标题描述。我们的MLLM经过微调以生成具有世界知识的结构化标题描述。

  • (4) 使Hunyuan-DiT能够通过与用户进行多轮对话来交互地修改其生成内容。

  • (5) 我们在推理阶段进行后期训练优化,以降低Hunyuan-DiT的部署成本。

为了全面评估Hunyuan-DiT的性能,还制定了一个包含50多位专业评估员的评估协议。该协议仔细考虑了文本生成图像模型的不同维度,包括文本-图像一致性、AI伪影、主体清晰度、美学等。评估协议被纳入数据护航中以更新生成模型。

Hunyuan-DiT在开源模型中实现了SOTA性能。在中文生成图像方面,Hunyuan-DiT在文本-图像一致性、排除AI伪影、主体清晰度和美学方面优于现有开源模型,包括Stable Diffusion 3。在主体清晰度和美学方面,其表现与顶级闭源模型如DALL-E 3和MidJourney v6相当。

在中文元素理解方面,包括古代汉诗和中国菜等类别,Hunyuan-DiT生成的图像质量和语义准确性较其他比较算法更高。Hunyuan-DiT支持长文本理解,最多可达256个token。Hunyuan-DiT可以使用中文和英文文本提示生成图像。在本报告中,除非另有说明,所有图像均使用中文提示生成。

方法

基于扩散transformer的改进生成

Hunyuan-DiT 是一个在潜空间中运行的扩散模型,如下图7所示。按照潜扩散模型(Latent Diffusion Model),使用预训练的变分自编码器(VAE)将图像压缩到低维潜空间,并训练一个扩散模型来学习数据分布。扩散模型通过transformer进行参数化。为了编码文本提示,结合了预训练的双语(英文和中文)CLIP和多语言T5编码器。下面将详细介绍每个模块。

VAE 使用SDXL中的VAE,该模型在512 × 512图像上进行了微调,基于SD 1.5的VAE。实验结果显示,基于高分辨率SDXL VAE训练的文本到图像模型在清晰度、过饱和缓解和

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值