阶跃星辰开源 Step 系列多模态大模型

开源多模态大模型:阶跃星辰Step系列

2025 年 2 月 18 日,阶跃星辰和吉利汽车集团联合宣布,将双方合作的两款阶跃 Step 系列多模态大模型向全球开发者开源123。以下是具体介绍2:

  • 阶跃 Step-Video-T2V
    • 基本信息:是目前全球范围内参数量最大、性能最好的开源视频生成大模型,参数量达到 300 亿,可以直接生成 204 帧、540P 分辨率的高质量视频。
    • 性能优势:在复杂运动、美感人物、视觉想象力、基础文字生成、原生中英双语输入和镜头语言等方面具备强大的生成能力,且语义理解和指令遵循能力突出。阶跃星辰发布并开源了针对文生视频质量评测的新基准数据集 Step - Video - T2V - Eval,评测结果显示,该模型在指令遵循、运动平滑性、物理合理性、美感度等方面的表现,均显著超过市面上既有的效果最佳的开源视频模型。
  • 阶跃 Step-Audio
    • 基本信息:是行业内首个产品级的开源语音交互模型,能够根据不同的场景需求生成情绪、方言、语种、歌声和个性化风格的表达,能和用户自然地高质量对话。
    • 性能优势:生成的语音具有超自然、高情商等特征,同时也能实现高质量的音色复刻并进行角色扮演,满足影视娱乐、社交、游戏等行业场景下应用需求。在 LlaMA Question、Web Questions 等 5 大主流公开测试集中,该模型性能均超过了行业内同类型开源模型,位列第一;在 HSK - 6(汉语水平考试六级)评测中的表现尤为突出,是最懂中国话的开源语音交互大模型。此外,阶跃星辰自建并开源了多维度评估体系 StepEval - Audio - 360 基准测试,人工横评结果显示,阶跃 Step - Audio 的模型能力十分均衡,且在各个维度上均超过了此前市面上效果最佳的开源语音模型。

此次联合开源的意义在于促进大模型技术的共享与创新,推动人工智能的普惠发展,为开源世界贡献最强的多模态大模型能力,形成大模型开源世界的又一股中国力量237。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值