完整复现Sora,Open-Sora最新技术报告发布,提供完整训练代码、权重及数据处理工具

文章链接:https://arxiv.org/pdf/2412.20404
项目链接:https://github.com/hpcaitech/Open-Sora
视频链接:https://hpcaitech.github.io/Open-Sora/

总结速览

解决的问题
人工视觉智能,特别是生成和模拟我们所见世界的能力,相较于语言能力的突破仍然滞后。现有视频生成模型在高保真视频内容生成、灵活视频合成及长时间视频生成方面面临诸多挑战。

提出的方案
本文引入 Open-Sora,一个开源的视频生成模型,支持文本生成图像、文本生成视频以及图像生成视频等多种视觉生成任务。通过空间-时间扩散Transformer (Spatial-Temporal Diffusion Transformer, STDiT) 框架,将空间与时间的注意力机制解耦,同时采用高度压缩的3D自编码器以压缩表示,加速训练过程。此外,提供完整的训练代码、模型权重及数据处理工具,推动社区发展。

应用的技术

  • STDiT框架:高效的扩散视频生成框架,解耦空间和时间注意力。

  • 3D自编码器:实现表示的高度压缩,加速训练。

  • 定制化训练策略:优化生成效率和效果。

达到的效果

  • 支持生成最长 15秒、分辨率最高 720p 的视频,并适配任意宽高比。

  • 在文本生成视频、图像生成视频任务中实现可控的运动动态生成。

  1. 开源以来取得显著成果,模型版本持续更新(v1.0到v1.2),当前最新版本(v1.2)已实现完整复现 OpenAI Sora 的技术,并支持生成多分辨率视频。

数据

数据来源

所使用的数据集全部开源,以确保模型训练的完全可复现性。总计生成了 30M 个视频片段,时长从 2秒到16秒 不等,总时长达 80k小时

  • Webvid-10M:包含 10M 个来自库存视频网站的视频-文本对。视频为低分辨率并带有水印。

  • Panda-70M:一个大规模数据集,包含 70M 个视频-字幕对。使用了其中 20M 高质量子集进行训练。

  • HD-VG-130M:由 130M 个文本-视频对组成,字幕通过 BLIP-2 生成。发现其场景和文本质量相对较差。

  • MiraData:一个高质量数据集,包含 77k 个长视频,主要来源于游戏和城市探索。

  • Vript:一个密集标注的数据集,包含 400k 个视频。

  • Inter4K:一个包含 1k4K分辨率 视频片段的数据集。

此外,还从 PexelsPixabayMixkit 获取了免费授权的视频。这些网站上的大部分视频质量较高,对这些优秀平台及其贡献者表示由衷的感谢。

图像数据集与视频一起训练,总计包含约 3M 张图像:

  • LAION:一个大规模开放数据集,使用了美学评分大于 6.5 的子集。

  • Unsplash-lite:包含 25k 张自然主题的 Unsplash 照片,覆盖了广泛的使用场景和上下文。

数据预处理

高质量数据对于训练优秀的生成模型至关重要。为此建立了一条完整的数据处理pipeline,可将原始视频无缝转换为高质量的视频-文本对。pipeline如图2所示。

数据处理步骤&

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值