文章链接:https://arxiv.org/pdf/2412.20404
项目链接:https://github.com/hpcaitech/Open-Sora
视频链接:https://hpcaitech.github.io/Open-Sora/
总结速览
解决的问题
人工视觉智能,特别是生成和模拟我们所见世界的能力,相较于语言能力的突破仍然滞后。现有视频生成模型在高保真视频内容生成、灵活视频合成及长时间视频生成方面面临诸多挑战。
提出的方案
本文引入 Open-Sora,一个开源的视频生成模型,支持文本生成图像、文本生成视频以及图像生成视频等多种视觉生成任务。通过空间-时间扩散Transformer (Spatial-Temporal Diffusion Transformer, STDiT) 框架,将空间与时间的注意力机制解耦,同时采用高度压缩的3D自编码器以压缩表示,加速训练过程。此外,提供完整的训练代码、模型权重及数据处理工具,推动社区发展。
应用的技术
-
STDiT框架:高效的扩散视频生成框架,解耦空间和时间注意力。
-
3D自编码器:实现表示的高度压缩,加速训练。
-
定制化训练策略:优化生成效率和效果。
达到的效果
-
支持生成最长 15秒、分辨率最高 720p 的视频,并适配任意宽高比。
-
在文本生成视频、图像生成视频任务中实现可控的运动动态生成。
-
开源以来取得显著成果,模型版本持续更新(v1.0到v1.2),当前最新版本(v1.2)已实现完整复现 OpenAI Sora 的技术,并支持生成多分辨率视频。
数据
数据来源
所使用的数据集全部开源,以确保模型训练的完全可复现性。总计生成了 30M 个视频片段,时长从 2秒到16秒 不等,总时长达 80k小时。
-
Webvid-10M:包含 10M 个来自库存视频网站的视频-文本对。视频为低分辨率并带有水印。
-
Panda-70M:一个大规模数据集,包含 70M 个视频-字幕对。使用了其中 20M 高质量子集进行训练。
-
HD-VG-130M:由 130M 个文本-视频对组成,字幕通过 BLIP-2 生成。发现其场景和文本质量相对较差。
-
MiraData:一个高质量数据集,包含 77k 个长视频,主要来源于游戏和城市探索。
-
Vript:一个密集标注的数据集,包含 400k 个视频。
-
Inter4K:一个包含 1k 个 4K分辨率 视频片段的数据集。
此外,还从 Pexels、Pixabay 和 Mixkit 获取了免费授权的视频。这些网站上的大部分视频质量较高,对这些优秀平台及其贡献者表示由衷的感谢。
图像数据集与视频一起训练,总计包含约 3M 张图像:
-
LAION:一个大规模开放数据集,使用了美学评分大于 6.5 的子集。
-
Unsplash-lite:包含 25k 张自然主题的 Unsplash 照片,覆盖了广泛的使用场景和上下文。
数据预处理
高质量数据对于训练优秀的生成模型至关重要。为此建立了一条完整的数据处理pipeline,可将原始视频无缝转换为高质量的视频-文本对。pipeline如图2所示。
数据处理步骤&