HunyuanDiT场景生成案例集:从古代宫殿到未来都市的时空穿越
【免费下载链接】HunyuanDiT 项目地址: https://ai.gitcode.com/tencent_hunyuan/HunyuanDiT
项目概述
HunyuanDiT是腾讯推出的一款多分辨率扩散Transformer(Diffusion Transformer)模型,具备中英文双语理解能力和多轮文本到图像生成功能。该模型在潜在空间中运行,结合预训练的变分自编码器(VAE)和Transformer架构,能够将文本描述转换为高质量图像。
HunyuanDiT的核心优势在于其对中文元素的精细理解和多轮交互生成能力。通过结合预训练的双语CLIP和多语言T5编码器,模型能够准确捕捉中英文文本中的视觉描述,并通过多轮对话不断优化生成结果。
系统架构
整体框架
HunyuanDiT的系统架构基于潜在扩散模型(Latent Diffusion Model),主要包含以下组件:
- 文本编码器:结合双语CLIP和多语言T5编码器,处理中英文文本输入
- 扩散模型:基于Transformer的扩散模型,在潜在空间中学习图像分布
- VAE:预训练的变分自编码器,用于图像的压缩和解压缩
多轮文本到图像生成
HunyuanDiT引入了多模态大型语言模型(MLLM)来实现多轮文本到图像生成,允许用户通过对话方式逐步优化生成结果。
多轮生成流程如下:
- 用户提供初始文本提示
- MLLM理解对话历史并生成优化后的文本提示
- 文本到图像模型根据优化后的提示生成图像
- 用户可以提供反馈,系统进行多轮迭代优化
模型组件详解
DialogGen提示增强模型
DialogGen是HunyuanDiT的提示增强模型,基于特定架构,负责理解用户意图并优化生成提示。其配置文件位于dialoggen/config.json,主要参数包括:
- 隐藏层大小:4096
- 注意力头数:32
- 隐藏层数:32
- 视觉塔:特定模型
- 词汇表大小:32000
mT5文本编码器
mT5(多语言T5)模型用于文本编码,配置文件位于t2i/mt5/config.json,关键参数:
- d_model:2048
- d_ff:5120
- 注意力头数:32
- 编码器/解码器层数:24
- 词汇表大小:250112
CLIP文本编码器
CLIP(对比语言-图像预训练)模型用于跨模态特征对齐,模型文件位于t2i/clip_text_encoder/。
VAE模型
变分自编码器(VAE)用于图像的潜在空间转换,模型文件位于t2i/sdxl-vae-fp16-fix/。
扩散Transformer模型
核心的扩散Transformer模型参数位于t2i/model/,包括pytorch_model_ema.pt和pytorch_model_module.pt两个主要文件。
环境准备与安装
硬件要求
HunyuanDiT对硬件有一定要求,具体如下:
| 模型组合 | TensorRT支持 | 批大小 | GPU内存 | 推荐GPU |
|---|---|---|---|---|
| DialogGen + Hunyuan-DiT | 否 | 1 | 32G | V100/A100 |
| Hunyuan-DiT | 否 | 1 | 11G | V100/A100 |
安装步骤
- 克隆仓库:
git clone https://gitcode.com/tencent_hunyuan/HunyuanDiT
cd HunyuanDiT
- 创建并激活conda环境:
conda env create -f environment.yml
conda activate HunyuanDiT
- 安装pip依赖:
python -m pip install -r requirements.txt
- (可选)安装flash attention v2加速:
python -m pip install git+https://github.com/Dao-AILab/flash-attention.git@v2.1.2.post3
模型下载
安装huggingface-cli:
python -m pip install "huggingface_hub[cli]"
下载模型:
mkdir ckpts
huggingface-cli download Tencent-Hunyuan/HunyuanDiT --local-dir ./ckpts
场景生成案例
案例一:古代宫殿
基础生成
使用以下命令生成基础古代宫殿场景:
python sample_t2i.py --prompt "一座宏伟的古代宫殿,金黄色的琉璃瓦,红色的宫墙,飞檐翘角,蓝天白云背景" --image-size 1024 768
多轮优化
通过多轮对话优化场景细节:
第一轮:
用户:生成一座古代宫殿
系统:[生成基础宫殿图像]
第二轮:
用户:让宫殿更大气,增加护城河和石桥
系统:[生成带护城河和石桥的宫殿图像]
第三轮:
用户:在宫殿前添加一些人物和装饰
系统:[生成带人物和装饰的完整宫殿场景]
案例二:未来都市
基础生成
python sample_t2i.py --prompt "未来科幻都市,高楼林立,飞行车辆在空中穿梭,全息广告牌,雨夜场景,霓虹灯效果" --image-size 1280 768
风格调整
调整参数生成不同风格的未来都市:
- 赛博朋克风格:
python sample_t2i.py --prompt "赛博朋克风格未来都市,巨型广告屏幕,雨水反射,现代风格建筑" --image-size 1280 768 --seed 12345
- 乌托邦风格:
python sample_t2i.py --prompt "乌托邦风格未来都市,绿色建筑,空中花园,清洁能源,蓝天白云" --image-size 1280 768 --seed 54321
案例三:中国元素场景
HunyuanDiT特别优化了对中国元素的理解和生成能力:
生成命令示例:
python sample_t2i.py --prompt "中国传统园林,假山流水,亭台楼阁,荷花池,拱桥,古色古香的建筑风格" --image-size 1024 1024
案例四:长文本理解
HunyuanDiT能够理解较长的文本描述并生成对应的图像:
长文本生成示例:
python sample_t2i.py --prompt "在一个宁静的山谷中,有一座古老的寺庙,周围环绕着茂密的松树。寺庙前有一条小溪流过,溪边长满了野花。远处的山峰被云雾环绕,山顶上有一座小亭子。天空中有几只飞鸟,阳光透过树叶洒在地面上,形成斑驳的光影。一位僧人正在寺庙门前打坐,神情安详。整个场景宁静祥和,充满了禅意。" --image-size 1024 1024
高级配置与参数调整
主要配置参数
HunyuanDiT提供了多种配置参数用于调整生成效果:
| 参数 | 默认值 | 描述 |
|---|---|---|
| --prompt | None | 图像生成的文本提示 |
| --image-size | 1024 1024 | 生成图像的尺寸 |
| --seed | 42 | 随机种子 |
| --infer-steps | 100 | 采样步数 |
| --negative | - | 负面提示 |
| --infer-mode | torch | 推理模式(torch或fa) |
| --sampler | ddpm | 扩散采样器(ddpm, ddim, dpmms) |
| --no-enhance | False | 禁用提示增强模型 |
| --model-root | ckpts | 模型检查点根目录 |
| --load-key | ema | 加载学生模型或EMA模型(ema或module) |
采样器比较
不同的采样器会产生不同的生成效果:
-
DDPM(Denoising Diffusion Probabilistic Models):
- 优点:生成质量高
- 缺点:采样步数多,速度慢
-
DDIM(Denoising Diffusion Implicit Models):
- 优点:采样速度快,可减少步数
- 缺点:某些情况下质量略低
-
DPMMS(DPM Solver Multistep):
- 优点:速度快,质量好
- 缺点:对某些复杂场景可能不稳定
应用场景与创意拓展
游戏场景设计
HunyuanDiT可用于快速生成游戏场景概念图,从古代城堡到未来空间站,帮助游戏开发者快速可视化创意。
影视特效预览
电影和电视剧制作中,可利用HunyuanDiT生成场景预览,辅助导演和美术指导决策。
建筑设计可视化
建筑师可以通过文本描述快速生成建筑设计效果图,探索不同风格和布局。
虚拟现实内容创建
为VR应用快速生成沉浸式环境,降低内容创建门槛。
教育场景生成
生成历史场景、科学概念可视化等教育内容,提升学习体验。
性能比较
HunyuanDiT与其他主流文本到图像模型的比较:
| 模型 | 开源 | 文本-图像一致性(%) | 无AI伪影(%) | 主体清晰度(%) | 美学性(%) | 总体评分(%) |
|---|---|---|---|---|---|---|
| SDXL | ✔ | 64.3 | 60.6 | 91.1 | 76.3 | 42.7 |
| PixArt-α | ✔ | 68.3 | 60.9 | 93.2 | 77.5 | 45.5 |
| Playground 2.5 | ✔ | 71.9 | 70.8 | 94.9 | 83.3 | 54.3 |
| SD 3 | ✘ | 77.1 | 69.3 | 94.6 | 82.5 | 56.7 |
| MidJourney v6 | ✘ | 73.5 | 80.2 | 93.5 | 87.2 | 63.3 |
| DALL-E 3 | ✘ | 83.9 | 80.3 | 96.5 | 89.4 | 71.0 |
| Hunyuan-DiT | ✔ | 74.2 | 74.3 | 95.4 | 86.6 | 59.0 |
从比较结果可以看出,Hunyuan-DiT在开源模型中表现优异,特别是在中文场景生成方面具有明显优势。
总结与展望
HunyuanDiT作为一款强大的开源文本到图像生成模型,凭借其对中文元素的精细理解和多轮交互能力,为创意内容生成提供了新的可能性。从古代宫殿到未来都市,从简单场景到复杂构图,HunyuanDiT都能通过文本描述精准生成对应的视觉图像。
未来,随着模型的不断优化和功能扩展,我们可以期待:
- 蒸馏版本的发布,降低硬件门槛
- TensorRT支持,提升推理速度
- 训练代码的开放,允许用户根据自身需求微调模型
- 更多风格和场景的优化,进一步提升生成质量和多样性
无论是专业创作者还是普通用户,都可以通过HunyuanDiT将文字创意转化为视觉艺术,开启创意表达的新篇章。
使用许可
HunyuanDiT使用腾讯混元社区许可,详细信息请参见LICENSE.txt。
【免费下载链接】HunyuanDiT 项目地址: https://ai.gitcode.com/tencent_hunyuan/HunyuanDiT
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考





