阶跃星辰开源 Step 系列多模态大模型

开源多模态大模型：阶跃星辰Step系列

最新推荐文章于 2025-12-09 16:47:37 发布

原创最新推荐文章于 2025-12-09 16:47:37 发布 · 820 阅读

·

4

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

2025 年 2 月 18 日，阶跃星辰和吉利汽车集团联合宣布，将双方合作的两款阶跃 Step 系列多模态大模型向全球开发者开源123。以下是具体介绍2：

阶跃 Step-Video-T2V
- 基本信息：是目前全球范围内参数量最大、性能最好的开源视频生成大模型，参数量达到 300 亿，可以直接生成 204 帧、540P 分辨率的高质量视频。
- 性能优势：在复杂运动、美感人物、视觉想象力、基础文字生成、原生中英双语输入和镜头语言等方面具备强大的生成能力，且语义理解和指令遵循能力突出。阶跃星辰发布并开源了针对文生视频质量评测的新基准数据集 Step - Video - T2V - Eval，评测结果显示，该模型在指令遵循、运动平滑性、物理合理性、美感度等方面的表现，均显著超过市面上既有的效果最佳的开源视频模型。
阶跃 Step-Audio
- 基本信息：是行业内首个产品级的开源语音交互模型，能够根据不同的场景需求生成情绪、方言、语种、歌声和个性化风格的表达，能和用户自然地高质量对话。
- 性能优势：生成的语音具有超自然、高情商等特征，同时也能实现高质量的音色复刻并进行角色扮演，满足影视娱乐、社交、游戏等行业场景下应用需求。在 LlaMA Question、Web Questions 等 5 大主流公开测试集中，该模型性能均超过了行业内同类型开源模型，位列第一；在 HSK - 6（汉语水平考试六级）评测中的表现尤为突出，是最懂中国话的开源语音交互大模型。此外，阶跃星辰自建并开源了多维度评估体系 StepEval - Audio - 360 基准测试，人工横评结果显示，阶跃 Step - Audio 的模型能力十分均衡，且在各个维度上均超过了此前市面上效果最佳的开源语音模型。

此次联合开源的意义在于促进大模型技术的共享与创新，推动人工智能的普惠发展，为开源世界贡献最强的多模态大模型能力，形成大模型开源世界的又一股中国力量237。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。