国内首个中文原生DiT架构SOTA大模型全面开源！———Hunyuan-DiT技术报告详解

最新推荐文章于 2025-11-21 20:12:56 发布

原创最新推荐文章于 2025-11-21 20:12:56 发布 · 2.4k 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#chatgpt #自然语言处理 #人工智能 #LLM #transformer #文生图

AIGC 专栏收录该内容

157 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

目前，腾讯混元文生图大模型已在 Hugging Face 平台及 Github 上发布，包含模型权重、推理代码、模型算法等完整模型。

且不管是企业还是个人开发者，全部免费可用。

开源地址： https://dit.hunyuan.tencent.com/

下面来详细介绍下混元大模型的技术细节，期待国内更多大模型能发布，让行业应用全面爆发：

Hunyuan-DiT，这是一种具备细粒度理解能力的文本到图像扩散transformer，能够处理英文和中文。为了构建Hunyuan-DiT，精心设计了transformer结构、文本编码器和位置编码。此外，还从头开始建立了完整的数据pipeline，以更新和评估数据，进行迭代的模型优化。

为了实现细粒度的语言理解，训练了一种多模态大语言模型，用于细化图像的标题描述。最终，Hunyuan-DiT能够与用户进行多轮多模态对话，根据上下文生成和优化图像。通过我们综合的人类评估协议，超过50位专业评估员参与评估，Hunyuan-DiT在中文到图像生成方面相比其他开源模型设立了新的标杆。

介绍

基于扩散的文本生成图像模型，如DALL-E、Stable Diffusion和Pixart，已经展示了生成前所未有质量图像的能力。然而，它们缺乏直接理解中文提示的能力，限制了其在中文文本提示下的图像生成潜力。为了提高中文理解能力，提出了AltDiffusion、PAI-Diffusion和Taiyi，但它们的生成质量仍需改进。

在本报告中，介绍了构建Hunyuan-DiT的完整流程，该模型可以根据英文和中文提示生成不同分辨率的高质量详细图像。

Hunyuan-DiT的贡献：

(1) 设计了基于扩散transformer的新网络架构。它结合了两个文本编码器：双语CLIP和多语言T5编码器，以提高语言理解能力并增加上下文长度。
(2) 从头构建了一个数据处理pipeline，用于添加数据、过滤数据、维护数据、更新数据并应用数据来优化我们的文本到图像模型。具体来说，我们设计了一个称为“数据护航”的迭代过程来检查新数据的有效性。
(3) 使用多模态大语言模型（MLLM）来优化图像-文本数据对中的原始标题描述。我们的MLLM经过微调以生成具有世界知识的结构化标题描述。
(4) 使Hunyuan-DiT能够通过与用户进行多轮对话来交互地修改其生成内容。
(5) 我们在推理阶段进行后期训练优化，以降低Hunyuan-DiT的部署成本。

为了全面评估Hunyuan-DiT的性能，还制定了一个包含50多位专业评估员的评估协议。该协议仔细考虑了文本生成图像模型的不同维度，包括文本-图像一致性、AI伪影、主体清晰度、美学等。评估协议被纳入数据护航中以更新生成模型。

Hunyuan-DiT在开源模型中实现了SOTA性能。在中文生成图像方面，Hunyuan-DiT在文本-图像一致性、排除AI伪影、主体清晰度和美学方面优于现有开源模型，包括Stable Diffusion 3。在主体清晰度和美学方面，其表现与顶级闭源模型如DALL-E 3和MidJourney v6相当。

在中文元素理解方面，包括古代汉诗和中国菜等类别，Hunyuan-DiT生成的图像质量和语义准确性较其他比较算法更高。Hunyuan-DiT支持长文本理解，最多可达256个token。Hunyuan-DiT可以使用中文和英文文本提示生成图像。在本报告中，除非另有说明，所有图像均使用中文提示生成。

方法

基于扩散transformer的改进生成

Hunyuan-DiT 是一个在潜空间中运行的扩散模型，如下图7所示。按照潜扩散模型（Latent Diffusion Model），使用预训练的变分自编码器（VAE）将图像压缩到低维潜空间，并训练一个扩散模型来学习数据分布。扩散模型通过transformer进行参数化。为了编码文本提示，结合了预训练的双语（英文和中文）CLIP和多语言T5编码器。下面将详细介绍每个模块。

VAE 使用SDXL中的VAE，该模型在512 × 512图像上进行了微调，基于SD 1.5的VAE。实验结果显示，基于高分辨率SDXL VAE训练的文本到图像模型在清晰度、过饱和缓解和失真减少方面优于SD 1.5 VAE。由于VAE的潜空间极大地影响生成质量，将在未来探索更好的VAE训练范式。

Hunyuan-DiT中的扩散transformer 与基准DiT相比，本文对扩散transformer进行了多项改进。发现类条件DiT中使用的自适应层归一化（Adaptive Layer Norm）在强制细粒度文本条件时表现不佳。因此，修改了模型结构，采用交叉注意力将文本条件与扩散模型结合起来，如Stable Diffusion。Hunyuan-DiT将潜空间中的向量作为输入，然后将x分块为个小块，其中p设置为2。

经过线性投影层后，得到个tokens，供后续的transformer块使用。Hunyuan-DiT有两种类型的transformer块：编码器块和解码器块。它们都包含三个模块——自注意力、交叉注意力和前馈网络（FFN）。文本信息在交叉注意力模块中融合。解码器块另外包含一个跳跃模块，在解码阶段添加来自编码器块的信息。该跳跃模块类似于U-Net中的长跳跃连接，但由于我们的transformer结构中没有上采样或下采样模块。最后，这些tokens被重新组织以恢复二维空间结构。在训练过程中，发现使用v预测可以获得更好的经验性能。

文本编码器 一个高效的文本编码器在文本生成图像过程中至关重要，因为它们需要准确理解和编码输入的文本提示以生成对应的图像。CLIP和 T5已成为这些编码器的主流选择。Matryoshka扩散模型、Imagen、MUSE和 Pixart-α仅使用 T5 来增强对输入文本提示的理解。相比之下，eDiff-I和 Swinv2-Imagen融合了 CLIP 和 T5 两种编码器，以进一步提高其文本理解能力。Hunyuan-DiT 选择结合 T5 和 CLIP 进行文本编码，以利用这两种模型的优势，从而增强文本生成图像过程的准确性和多样性。

位置编码和多分辨率生成 在视觉transformer中，一种常见的做法是应用正弦位置编码来编码token的绝对位置。在Hunyuan-DiT中，采用旋转位置embedding（RoPE），同时编码绝对位置和相对位置依赖性。使用二维RoPE，将RoPE扩展到图像域。

Hunyuan-DiT支持多分辨率训练和推理，这需要我们为不同分辨率分配合适的位置编码。对于，尝试了两种多分辨率生成的位置编码：

扩展位置编码：扩展位置编码以一种简单的方式给出的位置编码，即：

其中，是每个坐标和的位置编码函数。是位置 (i,j) 的二维位置编码。需要注意的是，当数据 x 具有不同分辨率时，它们的 h 和 w 会有很大的差异，位置编码也会显著不同。

中心插值位置编码：使用中心插值位置编码来对齐不同 h 和 w 的位置编码。假设 h≥w，中心插值位置编码计算位置编码的方式为：

其中，和S 是预定义的编码边界。这种策略确保了在计算位置编码时，不同分辨率的图像具有相同的范围[0,S]，从而提高了学习效率。

尽管扩展位置编码更易于实现，但我们发现它在多分辨率训练中是次优选择。它无法对齐不同分辨率的图像，也无法覆盖 h 和 w 都较大的罕见情况。相反，中心插值位置编码允许不同分辨率的图像共享相似的位置编码空间。使用中心插值位置编码，模型收敛更快，并能更好地推广到新分辨率。

提高训练稳定性 为了稳定训练，提出了三种技术：

在所有注意力模块中计算Q、K 和 V 之前添加层归一化。这种技术被称为 QK-Norm，提出于[12]。发现它对 Hunyuan-DiT 的训练也很有效。
在解码器块的跳跃模块之后添加层归一化，以避免训练过程中损失爆炸。
发现某些操作（例如层归一化）在 FP16 下容易溢出。特意将它们切换到 FP32以避免数值错误。

数据pipeline

数据处理

训练数据准备pipeline由四部分组成，如图20所示：

数据获取：数据获取的主要渠道目前包括外部购买、开放数据下载和授权合作伙伴数据。
数据解读：在获得原始数据后，对数据进行打标签以识别其优缺点。目前支持的标签能力包括图像清晰度、美学、猥亵内容、暴力、色情内容、水印存在、图像分类和图像描述等十多种。
数据分层：数据分层是为大批量图像服务于模型训练的不同阶段而构建的。例如，数十亿的图文对被用作基础（铜级）数据来训练我们的基础CLIP模型。然后，从这个大库中筛选出相对高质量的图像集作为银级数据，用于训练生成模型，以提高模型的质量和理解能力。最后，通过机器筛选和人工标注，选择最高质量的数据作为金级数据，用于优化和精细化生成模型。
数据应用：分层数据应用于多个领域。专业数据被筛选出来用于专项优化，例如人物或风格的专业化。新处理的数据不断加入基础生成模型的迭代优化中。数据也经常被检查以保持正在进行的数据处理的质量。

数据类别系统

我们发现训练数据中数据类别的覆盖范围对于训练精确的文本生成图像模型至关重要。这里我们讨论两个基本类别：

主体：主体生成是文本生成图像模型的基础能力。训练数据涵盖了大多数类别，包括人物、风景、植物、动物、商品、交通工具、游戏等，拥有超过一万个子类别。
风格：风格的多样性对用户的偏好和粘性至关重要。目前覆盖了一百多种风格，包括动漫、3D、绘画、写实和传统风格。

数据评估

为了评估引入专业数据或新处理数据对生成模型的影响，设计了一个“数据护航”机制，如图21所示，具体包括：

根据数据类别系统将训练数据分类，包含主体、风格、场景、构图等。然后我们调整不同类别之间的分布，以满足模型的需求，并使用类别平衡的数据集微调模型。
在类别级别上对比微调后的模型和原始模型，以评估数据的优缺点，并据此确定数据更新的方向。

成功运行该机制需要一个完整的文本生成图像模型评估协议。我们的模型评估协议由两部分组成：

评估集构建：通过结合坏案例和业务需求，根据我们的数据类别构建初始评估集。通过人工标注测试案例的合理性、逻辑性和全面性，确保评估集的可用性。
数据护航中的评估：在每次数据护航中，从评估集中随机选择一个子集，形成一个包含主体、风格、场景和构图的整体评估子集。计算所有评估维度的总体评分，以辅助数据迭代。

细粒度中文理解的标题优化

从互联网上抓取的图文对通常是低质量的，为图像提供更好的对应标题对训练文本生成图像模型非常重要。Hunyuan-DiT 采用训练良好的多模态大语言模型（MLLM）来重新生成原始图文对的标题，以提高数据质量。采用结构化标题来全面描述图像。此外，还使用原始标题和包含世界知识的专家模型，以便在重新生成标题时生成特殊概念。

使用结构化标题重新生成标题 现有的MLLMs，例如 BLIP-2 和 Qwen-VL，往往生成过于简化的标题，这些标题类似于 MS-COCO 标题或高度冗余且与图像无关的标题。为了训练适合改进原始图文对的MLLM，我们构建了一个大规模的结构化标题数据集，并对MLLM进行了微调。

我们使用AI辅助pipeline来构建数据集。人工标注图像标题非常困难，且标注质量难以标准化。因此，使用三阶段pipeline，通过AI辅助提高标注效率。在第一阶段，集成多个基本图像标注模型的标题，并结合人工标注，获得初始数据集。在第二阶段，用初始数据集训练MLLM，然后用训练好的模型为图像生成新标题。随着重新生成标题准确性的提高，人工标注的效率提高了约4倍。

我们的模型结构类似于LLAVA-1.6，由视觉部分的ViT、语言部分的仅解码LLM和连接视觉与文本的适配器组成。训练目标是与其他自回归模型相同的分类损失。

通过信息注入重新生成标题 在人类对结构化标题进行标注时，世界知识总是缺失的，因为人类不可能识别图像中的所有特殊概念。我们采用两种方法将世界知识注入标题中：

通过标签注入重新生成标题：为了简化标注过程，可以标注图像的标签，并使用MLLM从标注的标签生成包含标签的标题。除了由人类专家进行标注外，我们还可以使用专家模型获取标签，包括但不限于通用物体检测器、地标分类模型和动作识别模型。从标签中获取的附加信息可以显著增加生成标题中的世界知识。为此，我们设计了一个MLLM，将图像和标签作为输入，输出包含标签信息的更全面的标题。我们发现这个MLLM可以用非常稀疏的人类标注数据进行训练。
通过原始标题重新生成标题：Capsfusion提出了使用ChatGPT融合原始标题和生成的描述性标题。然而，原始标题通常存在噪音，单靠LLM无法纠正原始标题中的错误信息。为了解决这个问题，我们构建了一个MLLM，从图像和原始标题生成标题，该模型可以通过考虑图像信息来纠正错误。

多轮对话中的提示增强

理解自然语言指令并与用户进行多轮交互对于文本到图像系统至关重要。它有助于建立一个动态而迭代的创作过程，逐步将用户的想法逐步变为现实。在本节中，我们将详细介绍如何赋予Hunyuan-DiT执行多轮对话和图像生成的能力。已经有许多工作努力为文本到图像模型配备了使用MLLM的多轮功能，例如Next-GPT、SEED-LLaMA、RPG和DALLE-3。这些模型要么使用MLLM生成文本提示，要么使用文本嵌入来为文本到图像模型生成文本。我们选择了第一种选择，因为生成文本提示更灵活。我们训练MLLM以理解多轮用户对话并输出用于图像生成的新文本提示。

文本提示增强 用户给出的自然语言指令与训练文本到图像生成模型的精炼标题之间存在很大差异。因此，需要一个模型将这些指令转换为详细的语义连贯的文本提示，以实现成功的高质量图像生成。为了训练这个模型，我们利用了GPT-4的上下文学习能力。我们收集了一小部分手动标注的（指令，文本提示）对作为上下文学习示例，然后使用GPT-4生成更多的数据对。这些对构成了一个单轮指令到提示的数据集，称为。

多模态多轮对话 普通的MLLM只支持文本输出。为了与我们构建多轮文本到图像生成系统的目标保持一致，我们添加了一个特殊token<draw>，表示在当前对话轮次中应将文本提示发送给Hunyuan-DiT。如果模型成功预测到<draw>token，它将为Hunyuan-DiT生成详细的提示。为了训练MLLM，我们设计了一个三轮多模态对话的数据集。为了确保对话情景的广泛覆盖，我们基于四个主要类别，即文本→文本、文本→图像、文本+图像→文本、文本+图像→图像，探索了不同的输入和输出类型的组合。通过在每次对话轮次中选择一种类型，我们预先定义了一组三轮对话的组合。对于每个组合，我们使用GPT-4生成“对话提示”，这些提示用于定义对话之前AI agent的行为，从而产生独特的对话流程。遍历了13个主题和7种图像编辑方法，在使用各种“对话提示”查询GPT-4后产生了约15,000个样本。在“对话提示”中，我们还添加了中的样本，以避免生成的文本提示的分布偏移。我们将这个三轮文本到图像对话的数据集称为。

指令调优数据混合 为了保持多模态对话的能力，我们还包括了一系列开源的单/多模态对话数据集，表示为。随机洗牌并连接来自和的单轮样本，得到一个伪多轮数据集。该数据集具有多轮对话的特征，但不一定保持语义连贯性，模拟了用户在对话中可能切换话题的情况。为了适应话题的变化，我们训练模型来预测一个<switch>token。将、、的集合与混合在一起，作为最终的训练数据集D。

主题一致性的保证 在多轮文本到图像中，用户可能要求AI系统多次编辑特定主题。我们的目标是确保跨多个对话轮次生成的主题尽可能保持一致。为了实现这一目标，我们在对话AI代理的“对话提示”中添加了以下约束条件。对于基于前几轮生成的图像进行的图像生成，转换后的文本提示应满足用户当前的需求，同时尽量少地改变与之前图像使用的文本提示。此外，在给定对话的推理阶段，我们固定了文本到图像模型的随机种子。这种方法显著增加了对话中的主题一致性。

推理阶段的优化

工程优化 将Hunyuan-DiT部署给用户是昂贵的，我们采用了多种工程优化策略来提高推理效率，包括ONNX图优化、内核优化、运算符融合、预计算和GPU内存重用。

算法加速 最近，提出了各种方法来减少基于扩散的文本到图像模型的推理步骤。我们尝试将这些方法应用于加速Hunyuan-DiT，出现了以下问题：

训练稳定性：观察到对抗训练往往由于不稳定的训练方案而导致崩溃。
适应性：发现几种方法导致的模型无法重用预训练的插件模块或LoRAs。
灵活性：在实践中，潜变一致性模型只适用于低步骤生成。当推理步骤的数量超过一定阈值时，其性能会下降。这种限制阻碍了我们在生成性能和加速之间灵活调整平衡。
训练成本：对抗训练引入了额外的模块来训练鉴别模型，这对额外的GPU内存和训练时间需求很大。

考虑到这些问题，我们选择了渐进蒸馏。它具有稳定的训练，并允许在加速比和性能之间平滑地进行权衡，为我们提供了最便宜和最快的模型加速方式。为了鼓励学生模型准确模仿教师模型，我们在训练过程中仔细调整了优化器、无分类器指导和正则化。

评估协议

评估指标

评估维度：在确定评估维度时，参考了现有文献，并另外邀请了专业设计师和普通用户参与访谈，以确保评估指标既具有专业性又具有实用性。具体来说，在评估我们的文本到图像模型的能力时，采用了以下四个维度：文本-图像一致性、AI伪影、主题清晰度和整体美感。对于引起安全问题的结果（如涉及色情、政治、暴力或流血等），直接token为不可接受。

多轮交互评估：在评估多轮对话交互的能力时，还评估了额外的维度，如指令符合性、主题一致性和多轮提示增强对图像生成的性能。

评估数据集构建

数据集构建 将人工生成的测试提示与人类创建的测试提示相结合，构建了一个具有各种难度级别的分层评估数据集。具体而言，我们根据文本提示内容的丰富程度、描述元素的数量（主题、主题修饰语、背景描述、风格等）、元素是否常见以及是否包含抽象语义（如诗歌、成语、谚语等）等因素，将评估数据集分为三个难度级别 - 简单、中等和困难。

此外，由于使用人工创建测试提示时存在同质性和长期生产周期的问题，我们依赖于LLM来增加测试提示的多样性和难度，快速迭代提示生成，并减少人工劳动。

评估数据集类别和分布 在构建分层评估数据集的过程中，分析了用户在使用文本到图像生成模型时使用的文本提示，并结合用户访谈和专家设计师意见，覆盖了功能应用、角色性质、中国元素、多轮文本到图像生成、艺术风格、主题细节等主要类别。

不同的类别进一步分为多个层次。例如，“主题细节”类别进一步细分为动物、植物、车辆和地标等子类别。对于每个子类别，我们保持提示数量超过30。

评估执行

评估团队 评估团队由专业评估人员组成。他们具有丰富的专业知识和评估经验，能够准确执行评估任务并提供深入分析。评估团队拥有50多名成员。

评估流程 评估流程包括两个阶段：评估标准培训和多人校正。在评估标准培训阶段，我们为评估人员提供详细的培训，以确保他们对评估指标和工具有清晰的理解。在多人校正阶段，让多名评估人员独立评估同一组图像，然后总结和分析评估结果，以减轻评估人员之间的主观偏见。

特别是，评估数据集以3级分层方式构建，包括8个一级类别和70多个二级类别。对于每个二级类别，我们在评估集中有30 - 50个提示。评估集总共有3000多个提示。具体来说，我们的评估分数计算步骤如下：

计算单个提示的结果：对于每个提示，邀请多名评估人员独立评估模型生成的图像。然后，汇总评估人员的评估结果，并计算认为图像可接受的评估人员所占的比例。例如，如果有10名评估人员参与，其中7名认为图像可接受，则该提示的通过率为70%。
计算二级类别分数：根据内容将提示分类为二级类别。同一二级类别下的每个提示具有相等的权重。对于同一二级类别下的所有提示，计算其通过率的平均值，以获得该二级类别的分数。例如，如果一个二级类别有5个通过率分别为60%、70%、80%、90%和100%的提示，则该二级类别的分数为(60% + 70% + 80% + 90% + 100%) / 5 = 80%。
计算一级类别分数：基于二级类别分数，计算一级类别的分数。对于每个一级类别，取其下属二级类别分数的平均值，以获得一级类别分数。例如，如果一个一级类别有3个二级类别分别为70%、80%和90%，则该一级类别的分数为(70% + 80% + 90%) / 3 = 80%。
计算总体通过率：最后，根据每个一级类别的权重计算总体通过率。假设有3个一级类别，分别为70%、80%和90%，其权重分别为0.3、0.5和0.2，那么总体通过率将为0.3 ×70% + 0.5 ×80% + 0.2 ×90% = 79%。一级类别的权重是通过与用户、设计师和专家进行仔细讨论确定的，如表2所示。

通过上述过程，我们可以获得模型在不同类别级别上的通过率，以及总体通过率，从而全面评估模型的性能。

评估结果分析：在评估后，我们对结果进行深入分析，包括：

对不同评估指标（文本-图像一致性、AI伪像、主题清晰度和整体美感）的结果进行综合分析，以了解模型在各个方面的表现。
对模型在不同难度级别任务上的表现进行比较分析，以了解模型在处理复杂情景和抽象语义方面的能力。
确定模型的优势和劣势，为未来优化提供方向。
与其他最先进的模型进行比较。

评估协议演进

在评估框架的持续优化中，将考虑以下几个方面来改进我们的评估协议以适应新的挑战：

引入新的评估维度；
在评估反馈中添加深入分析，例如文本-图像不一致发生的地点或扭曲位置的精确token；
动态调整评估数据集；
利用机器评估来提高评估效率。

结果

定量评估

与最新技术的比较 将混沌-DiT与最新技术的模型进行了比较，包括开源模型（Playground 2.5、PixArt-α、SDXL）和闭源模型（DALL-E 3、SD 3、MidJourney v6）。遵循前面中的评估协议。所有模型都在四个维度上进行评估，包括文本-图像一致性、排除AI伪像的能力、主题清晰度和美感。如表1所示，与其他开源模型相比，Hunyuan-DiT在所有四个维度上取得了最佳得分。与闭源模型相比，Hunyuan-DiT在主题清晰度和图像美感方面可以达到与MidJourney v6和DALL-E 3等SOTA模型类似的性能。就总体通过率而言，Hunyuan-DiT在所有模型中排名第三，优于现有的开源替代方案。Hunyuan-DiT总共有15亿参数。

消融研究

实验设置 我们遵循先前研究中的设置，在MS COCO 256×256验证数据集上使用零样本Frechet Inception Distance（FID）评估模型的不同变体，通过从验证集中的提示生成30,000张图像。还报告了这些生成图像的平均CLIP分数，以检查文本提示和图像之间的对应关系。这些消融研究是在较小的0.7B扩散Transformer上进行的。

跳过模块的影响 长跳过连接用于在U-Net中的对称位置的编码和解码层之间实现特征融合。我们在Hunyuan-DiT中使用跳过模块来模仿这种设计。如图所示，观察到去除长跳过连接会增加FID并降低CLIP分数。

旋转位置编码（RoPE） 将正弦位置编码（DiT中的原始位置编码）与RoPE进行了比较。结果如图15所示。我们发现在大多数训练阶段，RoPE位置编码的性能优于正弦位置编码。特别是，我们发现RoPE加速了模型的收敛。我们假设这是由于RoPE能够封装绝对位置信息和相对位置信息。

我们还评估了在文本特征中包含一维RoPE位置编码的情况，如图15所示。我们发现，将RoPE位置编码添加到文本嵌入中并没有带来显著的收益。文本编码器我们评估了三种文本编码方案：

仅使用我们自己的双语（中英文）CLIP
仅使用多语言T5
同时使用双语CLIP和多语言T5。

在图16中，仅使用CLIP编码器的性能优于仅使用多语言T5编码器。此外，将双语CLIP编码器与多语言T5编码器相结合，充分利用了CLIP的高效语义捕捉能力和T5的细粒度语义理解优势，导致FID和CLIP分数显著提高。

我们还在图17中探索了两种合并CLIP和T5特征的方法：沿通道维度合并和沿长度维度合并。我们发现，沿文本长度维度连接文本编码器的特征可以获得更好的性能。我们的假设是，通过沿文本长度维度连接，模型可以充分利用Transformer的全局注意力机制来聚焦于每个文本槽。这有助于更好地理解和整合T5和CLIP提供的不同维度的语义信息。

总结

本报告介绍了构建Hunyuan-DiT的整个流程，这是一个具有理解英文和中文能力的文本到图像模型。报告阐明了Hunyuan-DiT的模型设计、数据处理和评估协议。通过从不同方面的努力结合起来，Hunyuan-DiT在开源模型中实现了在中文到图像生成方面的最佳性能。希望Hunyuan-DiT能成为社区训练更好的文本到图像模型的有用参考。