开源突破 | Step-Video-T2V：阶跃星辰的SOTA多模态模型

最新推荐文章于 2025-10-13 05:09:57 发布

原创最新推荐文章于 2025-10-13 05:09:57 发布 · 1.1k 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #开源 #社区

部署运行你感兴趣的模型镜像

Step-Video-T2V

在人工智能领域，逐步接近通用人工智能（AGI）的目标，阶跃星辰推出了一个突破性的多模态大模型：Step-Video-T2V 。这个模型为视频生成提供了全新的解决方案，成为全球开源社区的技术标杆。

Step-Video-T2V 是一款最先进的文本转视频（Text-to-Video, T2V）生成模型。该模型基于深度学习和多模态处理技术，拥有300亿参数，能够根据用户输入的文本提示，生成高质量的视频。Step-Video-T2V的关键特点是采用了深度压缩的VAE（变分自编码器）来有效降低计算复杂度，同时维持高质量的视觉输出。它能够生成最长204帧的视频，分辨率高达540p，并且支持多语言输入，如中文和英文。

Step-Video-T2V：开源最大、性能最强的视频生成模型

1. 超大模型参数：300亿参数的强大性能

Step-Video-T2V的300亿个参数，使得它能够在处理复杂的视频生成任务时，保持较高的生成质量和一致性。这种规模的模型能够更好地理解和生成复杂的场景，确保视频内容的连贯性和高质量细节。

2. 高效的视频VAE压缩

视频生成任务通常需要高效处理大量视频数据。Step-Video-T2V采用了创新的视频VAE（变分自编码器），实现了16x16的空间压缩和8倍的时间压缩。这种高效压缩策略极大地降低了训练和推理时的计算复杂度，同时保持了视频的质量。这意味着它不仅加快了训练过程，还能在有限的硬件资源下生成高质量的视频内容。

3. 双语文本编码器：高效理解中英文本

Step-Video-T2V配备了两个双语文本编码器，分别为Hunyuan-CLIP和Step-LLM。Hunyuan-CLIP是一个双向文本编码器，专注于生成与视觉空间高度对齐的文本表示，能够有效处理较短的提示。Step-LLM是内部开发的单向双语文本编码器，专门针对长文本和复杂语境进行了优化，尤其擅长处理较长的用户提示。通过这两种编码器的结合，Step-Video-T2V能够高效理解和生成中英文文本内容，使得模型在多语言环境下表现尤为出色。

4. 3D-RoPE：增强的视频空间与时间建模能力

为了应对视频中的空间和时间依赖，Step-Video-T2V引入了3D-RoPE（旋转位置编码），对传统的DiT（Denoising Image Transformer）架构进行了增强。3D-RoPE使得模型能够处理视频数据中的空间（高度和宽度）和时间（帧数）维度的关系，从而提高了模型的适应性和鲁棒性。它不仅能适应不同视频分辨率，还能应对长序列视频生成任务，这使得Step-Video-T2V在处理复杂运动和变化多端的场景时表现尤为优秀。

5. 四阶段级联训练策略

Step-Video-T2V采用了创新的级联训练策略，通过四个步骤逐步提高模型的生成能力：

T2I预训练：首先进行文本到图像（T2I）训练，让模型建立起基础的视觉概念。
T2VI联合训练：然后进入T2VI阶段，通过联合训练，让模型学习空间与时间的动态关系。此阶段分为低分辨率视频（学习运动知识）和高分辨率视频（学习细节）的两个阶段。
T2V微调：在预训练的基础上，使用专门的文本到视频数据进行微调，解决不同领域和视频质量的差异。

DPO训练：最后，通过基于视频的直接偏好优化（DPO）方法，利用人类反馈进一步优化模型的生成质量，确保生成视频与用户提示的高一致性。

6. 多种镜头运动支持与复杂运动生成

Step-Video-T2V在视频生成时，能够精准地处理复杂的镜头运动。无论是推、拉、摇、移、旋转还是跟随等各种镜头运动方式，它都能够自如地应对。此外，模型在生成复杂运动场景时表现得尤为突出。比如，在高难度的运动场景（如芭蕾舞、空手道或跳水）中，Step-Video-T2V能够精准地捕捉物体与空间之间的关系，生成符合物理规律的真实画面。这一技术突破有效解决了生成复杂运动视频时的挑战。