一、介绍
2024 年 3 月 18 日,Colossal-AI 团队发布了 Open-Sora 1.0 项目,该项目是一个全面开源的视频生成模型项目,旨在高效制作高质量视频,并使所有人都能使用其模型、工具和内容。
1. 模型架构
- Open-Sora 1.0 采用了 Diffusion Transformer(DiT)模型,并在此基础上引入了时间注意力层,以优化对视频数据的处理。
- 整个架构包括预训练的 VAE、文本编码器,以及利用空间-时间注意力机制的 STDiT(Spatial Temporal Diffusion Transformer)模型。
- 通过预训练的 VAE 进行视频数据压缩,然后在潜在空间中结合文本嵌入训练 STDiT 扩散模型。在推理阶段,模型从 VAE 的潜在空间中采样高斯噪声,并与提示词嵌入一起输入到 STDiT 中,最终通过 VAE 的解码器生成视频。
2. 训练策略
- 采用了多阶段训练方法,包括大规模图像预训练、大规模视频预训练和高质量视频数据微调。这种策略通过逐步扩展数据集,更高效地实现了高质量视频生成的目标。
- 提供了训练加速系统,通过算子优化和混合并行等策略,实现了训练的高效加速。
3. 功能特点
- 支持视频数据预处理、加速训练、推理等全套流程。
- 提供了用于数据预处理的视频切割和字幕工具,以及支持剪辑和 T5 文本调节的功能。
- 实现了可变长宽比、可变分辨率和可变时长等功能,为用户提供了更灵活的视频生成选项。
- Open-Sora 1.0 的实际视频生成效果令人印象深刻,能够生成风格多样的视频内容,如悬崖海岸的航拍画面、山川瀑布的宏伟鸟瞰、水中世界的悠然镜头等。
- 它不仅能够根据文本描述生成视频,还具备根据分割图和

最低0.47元/天 解锁文章
730

被折叠的 条评论
为什么被折叠?



