1.简介
在本技术报告中,作者介绍了Step-Video-T2 V,这是一种最先进的视频基础模型,具有30 B参数,能够理解中文和英文提示,生成高质量的视频(544 x992分辨率),最长可达204帧,具有强大的运动动态,高美学和一致的内容。
该模型的主要贡献如下:
- Step-Video-T2 V是一种使用流匹配训练的基于扩散Transformer(DiT)的模型。专门设计的深度压缩变分自动编码器(VAE)可实现16 x16的空间压缩比和8x的时间压缩比,显著降低了大规模视频生成训练的计算复杂度。
- 两个双语文本编码器使Step-Video-T2 V能够直接理解中文或英文提示。
- 引入级联训练管道,包括文本到图像预训练,文本到视频预训练,监督微调(SFT)和直接偏好优化(DPO),以加速模型收敛并充分利用不同质量的视频数据集。
- 创建了一个名为Step-Video-T2 V-Eval的新基准数据集,用于生成文本到视频,其中包括11个类别的128个不同提示。
-
除此之外,作者还定义了视频基础模型的两个层次
- 第1级:翻译视频基础模型。这个级别的模型充当跨模态翻译系统,能够从文本、视觉或多模态上下文生成视频。
- 第2级:可预测视频基础模型。这个级别的模型充当预测系统,类似于大型语言模型(LLM),可以基于文本、视觉或多模态上下文预测未来事件,并处理更高级的任务,例如使用多模态数据进行推理或模拟真实世界场景。
目前基于扩散的文本到视频模型,如Sora,Veo,Kling,Hailuo和Step-Video,属于1级。这些模型可以从文本提示生成高质量的视频,降低了创作者制作视频内容的门槛。然而,它们通常无法生成需要复杂动作序列(如体操表演)或遵守物理定律(如篮球在地板上弹跳)的视频,更不用说执行LLM等因果或逻辑任务了。之所以会出现这样的限制,是因为这些模型只学习文本提示和相应视频之间的映射,而没有明确地对视频中的潜在因果关系进行建模。基于自回归的文本到视频模型通过预测下一个视频标记、帧或剪辑来引入因果建模机制。然而,这些模型仍然无法实现与基于扩散的文本到视频生成模型相当的性能。
-
github地址:GitHub - stepfun-ai/Step-Video-T2V
在线体验:跃问
stepvideo-t2v权重:https://huggingface.co/stepfun-ai/stepvideo-t2v
stepvideo-t2v-turbo权重:https://huggingface.co/stepfun-ai/stepvideo-t2v-turbo
-
-
案例
提示词:视频中,乔布斯身穿黑色上衣,站在一个大型展览屏幕前,背后的展览上醒目地写着"stepvideo is coming"。他神情专注,正在向观众介绍新产品。整个场景在一个现代化的发布会现场进行,展览屏幕上展示着各种产品信息。视频采用固定镜头拍摄,画面清晰,具有纪实风格,展现了乔布斯在发布会上的风采。
提示词:视频中,玩家在第一人称射击游戏中,手持武器,瞄准目标,扣动扳机。画面采用第一人称视角,镜头跟随玩家的动作进行移动,营造出紧张刺激的氛围。玩家身穿迷彩服,头戴头盔,表情专注。背景是复杂的地形和掩体,敌人从四面八方涌来。视频采用动态拍摄,具有游戏画面风格,清晰地展示了射击的每一个动作细节,给人以身临其境的感觉。
提示词:This medium shot, with a shallow depth of field, portrays a cute cartoon girl with wavy brown hair, sitting upright in a 1980s kitchen. Her hair is medium length and wavy. She has a small, slightly upturned nose, and small, rounded
提示词:采用 3D 动画风格,视频中,慢慢显现出了2025的字样,天空中绽放出绚烂的烟花。2025字样晶莹剔透,背景是黑色的地板。画面采用固定机头,动画风格,展现了蛇年过年喜庆热闹的氛围。
-
-
2.模型
Step-Video-T2 V的整体架构如图1所示。视频由高压缩率的Video-VAE处理,实现16 x16空间和8x时间压缩比。使用两个双语预训练文本编码器对用户提示进行编码,以处理英语和中文。使用具有3D全注意力的DiT和Flow Matching来训练,文本嵌入和时间步长作为调节因素。为了进一步提高生成视频的视觉质量,还应用了基于视频的DPO方法,该方法有效地减少了伪影,并确保更平滑,更逼真的视频输出。
Video-VAE
最先进的视频模型,如Hunyuan-video,CogVideoX和Meta Movie Gen均使用具有4×8×8或8×8×8的时空降尺度因子的变分自动编码器(VAE)。这些VAE将3通道RGB输入映射到16通道潜在表示,实现高达1:96的压缩比。为了进一步减少令牌的数量,这些系统通常采用将每2×2×1的潜在patch合并成一个token,从而减少特征的数量,提高模型的效率。虽然这种压缩和标记化的两阶段过程是有效的,但它引入了架构复杂性,并且可能会降低后续扩散阶段的性能。
文本到视频扩散转换器模型的效率从根本上取决于它们在压缩的潜在空间内操作的能力。考虑到由于注意力操作,计算成本与令牌数量成二次方关系,通过有效压缩来减轻时空冗余至关重要。
双路径架构
作者的Video-VAE在编码器的后期和解码器的早期引入了一种新颖的双路径架构,其具有统一的时空压缩。该设计通过协同使用3D卷积和优化的像素解混洗操作(optimized pixel unshuffling operations)实现了8×16×16的降尺度。对于输入视频张量,编码器E通过以下方式产生潜在表示
:
- 因果3D卷积:编码器的早期阶段由三个阶段组成,每个阶段具有两个Causal Res3D