Step-Video-T2V
在人工智能领域,逐步接近通用人工智能(AGI)的目标,阶跃星辰推出了一个突破性的多模态大模型:Step-Video-T2V 。这个模型为视频生成提供了全新的解决方案,成为全球开源社区的技术标杆。
Step-Video-T2V 是一款最先进的文本转视频(Text-to-Video, T2V)生成模型。该模型基于深度学习和多模态处理技术,拥有300亿参数,能够根据用户输入的文本提示,生成高质量的视频。Step-Video-T2V的关键特点是采用了深度压缩的VAE(变分自编码器)来有效降低计算复杂度,同时维持高质量的视觉输出。它能够生成最长204帧的视频,分辨率高达540p,并且支持多语言输入,如中文和英文。

Step-Video-T2V:开源最大、性能最强的视频生成模型
1. 超大模型参数:300亿参数的强大性能
Step-Video-T2V的300亿个参数,使得它能够在处理复杂的视频生成任务时,保持较高的生成质量和一致性。这种规模的模型能够更好地理解和生成复杂的场景,确保视频内容的连贯性和高质量细节。
2. 高效的视频VAE压缩
视频生成任务通常需要高效处理大量视频数据。Step-Video-T2V采用了创新的视频VAE(变分自编码器),实现了16x16的空间压缩和8倍的时间压缩。这种高效压缩策略极大地降低了训练和推理时的计算复杂度,同时保持了视频的质量。这意味着它不仅加快了训练过程,还能在有限的硬件资源下生成高质量的视频内容。

3. 双语文本编码器:高效理解中英文本
Step-Video-T2V配备了两个双语文本编码器,分别为Hunyuan-CLIP和Step-LLM。Hunyuan-CLIP是一个双向文本编码器,专注于生成与视觉空间高度对齐的文本表示,能够有效处理较短的提示。Step-LLM是内部开发的单向双语文本编码器,专门针对长文本和复杂语境进行了优化,尤其擅长处理较长的用户提示。通过这两种编码器的结合,Step-Video-T2V能够高效理解和生成中英文文本内容,使得模型在多语言环境下表现尤为出色。
4. 3D-RoPE:增强的视频空间与时间建模能力
为了应对视频中的空间和时间依赖,Step-Video-T2V引入了3D-RoPE(旋转位置编码),对传统的DiT(Denoising Image Transformer)架构进行了增强。3D-RoPE使得模型能够处理视频数据中的空间(高度和宽度)和时间(帧数)维度的关系,从而提高了模型的适应性和鲁棒性。它不仅能适应不同视频分辨率,还能应对长序列视频生成任务,这使得Step-Video-T2V在处理复杂运动和变化多端的场景时表现尤为优秀。

5. 四阶段级联训练策略
Step-Video-T2V采用了创新的级联训练策略,通过四个步骤逐步提高模型的生成能力:
-
T2I预训练:首先进行文本到图像(T2I)训练,让模型建立起基础的视觉概念。
-
T2VI联合训练:然后进入T2VI阶段,通过联合训练,让模型学习空间与时间的动态关系。此阶段分为低分辨率视频(学习运动知识)和高分辨率视频(学习细节)的两个阶段。
-
T2V微调:在预训练的基础上,使用专门的文本到视频数据进行微调,解决不同领域和视频质量的差异。
DPO训练:最后,通过基于视频的直接偏好优化(DPO)方法,利用人类反馈进一步优化模型的生成质量,确保生成视频与用户提示的高一致性。

6. 多种镜头运动支持与复杂运动生成
Step-Video-T2V在视频生成时,能够精准地处理复杂的镜头运动。无论是推、拉、摇、移、旋转还是跟随等各种镜头运动方式,它都能够自如地应对。此外,模型在生成复杂运动场景时表现得尤为突出。比如,在高难度的运动场景(如芭蕾舞、空手道或跳水)中,Step-Video-T2V能够精准地捕捉物体与空间之间的关系,生成符合物理规律的真实画面。这一技术突破有效解决了生成复杂运动视频时的挑战。
Step-Video-T2V测评
为了对开源视频生成模型的性能进行全面评测,构建并开源了针对文生视频质量评测的新基准数据集 Step-Video-T2V-Eval。该测试集包含 128 条源于真实用户的中文评测问题,旨在评估生成视频在运动、风景、动物、组合概念、超现实、人物、3D 动画、电影摄影等 11 个内容类别上质量。
评测结果显示,Step-Video-T2V 的模型性能在指令遵循、运动平滑性、物理合理性、美感度等方面的表现均显著超过市面上既有的效果最佳的开源视频模型。
在生成效果,Step-Video-T2V 在复杂运动、美感人物、视觉想象力、基础文字生成、原生中英双语输入和镜头语言等方面具备强大的生成能力,且语义理解和指令遵循能力突出,能够高效助力视频创作者实现精准创意呈现。

生成示例
step1
step2
模型下载
OpenCSG社区:https://opencsg.com/models/stepfun-ai/stepvideo-t2v
1万+

被折叠的 条评论
为什么被折叠?



