目录
PixArt-α
PixArt-α是指一个由华为诺亚方舟实验室等研究机构联合提出的高质量、低成本的文本到图像(T2I)模型。它基于Diffusion Transformer(DiT)架构,具有0.6B的模型参数,主打低训练成本,训练时长仅为Stable Diffusion 1.5版本的10.8%,并且仅使用了25M数据进行训练。PixArt-α能够生成与最先进的图像生成器如Imagen、SDXL甚至Midjourney相媲美的图像质量,支持高达1024px的高分辨率图像合成。它通过三个核心设计实现高效训练:训练策略分解、高效T2I变压器和高信息量数据。PixArt-α在图像质量、艺术性和语义控制方面表现优异,实现了极低的训练成本和碳排放量。
open sora
我们的模型采用当前流行的扩散变压器(DiT)[1]架构。我们使用 PixArt-α [2],这是一种高质量的开源文本到