2025 年 2 月 18 日,阶跃星辰和吉利汽车集团联合宣布,将双方合作的两款阶跃 Step 系列多模态大模型向全球开发者开源123。以下是具体介绍2:
- 阶跃 Step-Video-T2V
- 基本信息:是目前全球范围内参数量最大、性能最好的开源视频生成大模型,参数量达到 300 亿,可以直接生成 204 帧、540P 分辨率的高质量视频。
- 性能优势:在复杂运动、美感人物、视觉想象力、基础文字生成、原生中英双语输入和镜头语言等方面具备强大的生成能力,且语义理解和指令遵循能力突出。阶跃星辰发布并开源了针对文生视频质量评测的新基准数据集 Step - Video - T2V - Eval,评测结果显示,该模型在指令遵循、运动平滑性、物理合理性、美感度等方面的表现,均显著超过市面上既有的效果最佳的开源视频模型。
- 阶跃 Step-Audio
- 基本信息:是行业内首个产品级的开源语音交互模型,能够根据不同的场景需求生成情绪、方言、语种、歌声和个性化风格的表达,能和用户自然地高质量对话。
- 性能优势:生成的语音具有超自然、高情商等特征,同时也能实现高质量的音色复刻并进行角色扮演,满足影视娱乐、社交、游戏等行业场景下应用需求。在 LlaMA Question、Web Questions 等 5 大主流公开测试集中,该模型性能均超过了行业内同类型开源模型,位列第一;在 HSK - 6(汉语水平考试六级)评测中的表现尤为突出,是最懂中国话的开源语音交互大模型。此外,阶跃星辰自建并开源了多维度评估体系 StepEval - Audio - 360 基准测试,人工横评结果显示,阶跃 Step - Audio 的模型能力十分均衡,且在各个维度上均超过了此前市面上效果最佳的开源语音模型。
此次联合开源的意义在于促进大模型技术的共享与创新,推动人工智能的普惠发展,为开源世界贡献最强的多模态大模型能力,形成大模型开源世界的又一股中国力量237。