目前,腾讯混元文生图大模型已在 Hugging Face 平台及 Github 上发布,包含模型权重、推理代码、模型算法等完整模型。
且不管是企业还是个人开发者,全部免费可用。
开源地址: https://dit.hunyuan.tencent.com/
下面来详细介绍下混元大模型的技术细节,期待国内更多大模型能发布,让行业应用全面爆发:
Hunyuan-DiT,这是一种具备细粒度理解能力的文本到图像扩散transformer,能够处理英文和中文。为了构建Hunyuan-DiT,精心设计了transformer结构、文本编码器和位置编码。此外,还从头开始建立了完整的数据pipeline,以更新和评估数据,进行迭代的模型优化。
为了实现细粒度的语言理解,训练了一种多模态大语言模型,用于细化图像的标题描述。最终,Hunyuan-DiT能够与用户进行多轮多模态对话,根据上下文生成和优化图像。通过我们综合的人类评估协议,超过50位专业评估员参与评估,Hunyuan-DiT在中文到图像生成方面相比其他开源模型设立了新的标杆。
介绍
基于扩散的文本生成图像模型,如DALL-E、Stable Diffusion和Pixart,已经展示了生成前所未有质量图像的能力。然而,它们缺乏直接理解中文提示的能力,限制了其在中文文本提示下的图像生成潜力。为了提高中文理解能力,提出了AltDiffusion、PAI-Diffusion和Taiyi,但它们的生成质量仍需改进。
在本报告中,介绍了构建Hunyuan-DiT的完整流程,该模型可以根据英文和中文提示生成不同分辨率的高质量详细图像。
Hunyuan-DiT的贡献:
-
(1) 设计了基于扩散transformer的新网络架构。它结合了两个文本编码器:双语CLIP和多语言T5编码器,以提高语言理解能力并增加上下文长度。
-
(2) 从头构建了一个数据处理pipeline,用于添加数据、过滤数据、维护数据、更新数据并应用数据来优化我们的文本到图像模型。具体来说,我们设计了一个称为“数据护航”的迭代过程来检查新数据的有效性。
-
(3) 使用多模态大语言模型(MLLM)来优化图像-文本数据对中的原始标题描述。我们的MLLM经过微调以生成具有世界知识的结构化标题描述。
-
(4) 使Hunyuan-DiT能够通过与用户进行多轮对话来交互地修改其生成内容。
-
(5) 我们在推理阶段进行后期训练优化,以降低Hunyuan-DiT的部署成本。
为了全面评估Hunyuan-DiT的性能,还制定了一个包含50多位专业评估员的评估协议。该协议仔细考虑了文本生成图像模型的不同维度,包括文本-图像一致性、AI伪影、主体清晰度、美学等。评估协议被纳入数据护航中以更新生成模型。
Hunyuan-DiT在开源模型中实现了SOTA性能。在中文生成图像方面,Hunyuan-DiT在文本-图像一致性、排除AI伪影、主体清晰度和美学方面优于现有开源模型,包括Stable Diffusion 3。在主体清晰度和美学方面,其表现与顶级闭源模型如DALL-E 3和MidJourney v6相当。
在中文元素理解方面,包括古代汉诗和中国菜等类别,Hunyuan-DiT生成的图像质量和语义准确性较其他比较算法更高。Hunyuan-DiT支持长文本理解,最多可达256个token。Hunyuan-DiT可以使用中文和英文文本提示生成图像。在本报告中,除非另有说明,所有图像均使用中文提示生成。
方法
基于扩散transformer的改进生成
Hunyuan-DiT 是一个在潜空间中运行的扩散模型,如下图7所示。按照潜扩散模型(Latent Diffusion Model),使用预训练的变分自编码器(VAE)将图像压缩到低维潜空间,并训练一个扩散模型来学习数据分布。扩散模型通过transformer进行参数化。为了编码文本提示,结合了预训练的双语(英文和中文)CLIP和多语言T5编码器。下面将详细介绍每个模块。
VAE 使用SDXL中的VAE,该模型在512 × 512图像上进行了微调,基于SD 1.5的VAE。实验结果显示,基于高分辨率SDXL VAE训练的文本到图像模型在清晰度、过饱和缓解和