一、论文主要内容
Z-Image是阿里巴巴提出的6B参数高效图像生成基础模型系列,基于可扩展单流扩散Transformer(S3-DiT)架构,核心目标是打破“规模至上”的行业范式。模型通过系统优化数据基础设施、架构设计、训练策略和推理加速四大环节,仅用314K H800 GPU小时(约63万美元)完成全流程训练,推出两大核心变体:
- Z-Image-Turbo:经少量步骤蒸馏和RLHF优化,8步推理即可实现亚秒级响应,支持<16GB VRAM的消费级硬件,在照片级真实感生成和双语文字渲染上比肩商业模型;
- Z-Image-Edit:依托全场景预训练范式,具备精准的指令跟随图像编辑能力。
模型在多项权威基准测试(如CVTG-2K、OneIG)和人类偏好评估中表现优异(Elo排名全球第4、开源模型第1),已开源代码、权重及在线演示。
二、核心创新点
- 高效数据基础设施:由数据剖析、跨模态向量、世界知识拓扑图、主动筛选四大模块组成,实现数据去重、概念补全和动态课程学习,避免冗余数据浪费;
- 单流多模态架构(S3-DiT):统一处理文本、图像VAE令牌等模态,实现密集跨模态交互,6B参数规模兼顾性能与部署效率;
- 三阶训练策略:低分辨率预训练(基础对齐)→ 全场景预训练(多任务融合)→ PE感知微调(质量聚焦),无需单独训练多任务模块;
- 高效推理优化:提出Decoupled DMD(解决

订阅专栏 解锁全文
7

被折叠的 条评论
为什么被折叠?



