2025年2月18日,国内人工智能领域再传捷报——AI创业公司阶跃星辰与吉利汽车集团携手,正式向全球开源社区发布两款突破性多模态大模型。此次开源的Step-Video-T2V视频生成模型与Step-Audio语音交互模型,不仅填补了国内相关领域的技术空白,更以多项核心指标刷新行业纪录,标志着中国力量在全球大模型开源赛道的地位进一步巩固。
【免费下载链接】Step-Audio-TTS-3B 项目地址: https://ai.gitcode.com/StepFun/Step-Audio-TTS-3B
开源双雄横空出世,技术实力领跑全球
作为本次发布的重头戏,Step-Video-T2V凭借300亿参数量的庞大架构,一举成为当前全球参数量最大、综合性能最强的开源视频生成模型。该模型采用MIT许可协议开源,彻底消除了商业应用的版权壁垒,开发者可免费用于商业项目开发、二次创新及学术研究。与此同时,同步开源的Step-Audio则是业内首款实现产品级落地的语音交互大模型,其融合语音识别、语义理解、情感交互的全链路能力,为智能交互领域带来革命性突破。
技术社区对此次发布反响热烈。Hugging Face资深工程师、前谷歌TensorFlow核心团队成员Tiezhen Wang在社交平台公开评价:"阶跃星辰正以DeepSeek式的技术爆发力重塑开源生态",该评论被Hugging Face官方账号转发后引发全球AI从业者关注。GPT-J架构设计者Aran Komatsuzaki更是直接分享了使用Step-Video-T2V生成的动态场景视频,视频中流畅的镜头运动与逼真的物理交互引发技术圈广泛讨论。国内开发者社区则盛赞此举"为中国开源力量赢得国际话语权",相关模型在发布24小时内即在Hugging Face平台获得超10万次下载。
两款模型已同步上线阶跃星辰自研的"跃问"AI交互平台(yuewen.cn),普通用户可通过移动端App直接体验,专业开发者则可通过Gitcode仓库(https://gitcode.com/StepFun/Step-Audio-TTS-3B)获取完整代码与训练方案,桌面端视频创作工具也已开放测试申请。
Step-Video-T2V:重新定义视频生成的技术边界
在影视创作领域,镜头语言的运用往往决定作品的专业水准。Step-Video-T2V通过创新的时空注意力机制,首次在开源模型中实现电影级镜头调度能力。实测显示,该模型可精准生成低角度环绕、高空俯拍、跟随摇移等12种专业摄影运镜手法,支持从特写镜头到全景画面的无缝切换。在"海滩沙堡建造"的生成案例中,模型以45度俯视角配合缓慢推进的镜头运动,既展现了沙堡构建的细节纹理,又通过潮汐变化的远景镜头营造出时光流逝的氛围感,这种复合镜头语言的运用已接近专业纪录片水准。
人物运动生成长期是视频AI的技术痛点,Step-Video-T2V通过引入物理引擎约束与运动轨迹预测算法,实现了突破性进展。在"森林精灵舞蹈"测试场景中,模型生成的0.5倍速慢镜头里,精灵裙摆在旋转时的离心运动、发光昆虫环绕飞舞的轨迹规律、月光穿透树叶形成的动态光斑,均呈现出符合真实物理规律的运动状态。更令人惊叹的是其对高强度运动场景的处理能力:在"高台跳水"生成案例中,从起跳到入水的1.5秒过程里,人体翻腾的角速度变化、水花溅起的流体动力学效果、水面波纹的扩散衰减,均达到肉眼难辨真伪的程度。
人物形象生成方面,Step-Video-T2V采用精细化面部特征编码技术,解决了以往AI生成人物"塑料感"、"表情僵硬"的通病。在"工作室创作场景"测试中,模型生成的女性角色不仅展现出黑色卷发在光源下的层次感、贝雷帽边缘的绒毛质感等微观细节,更通过嘴角微扬与眼神聚焦的微妙表情变化,传递出创作者的专注情绪。技术团队透露,该模型在人脸生成时采用了超过200个特征点的动态捕捉技术,配合自研的"表情迁移矩阵",使AI角色能够呈现喜怒哀乐的细微情绪波动。
为全面验证模型性能,阶跃星辰联合清华大学智能技术与系统国家重点实验室构建了包含11个维度的Step-Video-T2V-Eval评测体系。在涵盖运动流畅性、物理合理性、美学表现等核心指标的测试中,该模型以平均89.7分的成绩大幅领先同类开源模型(第二名得分为76.2分),尤其在"多镜头叙事"与"跨场景转场"两个高难度任务上,得分超出行业基准线40%以上。
Step-Audio:开启情感化语音交互新纪元
Step-Audio的突破性在于构建了"听懂-理解-共情-表达"的完整交互链路。在汉语水平考试HSK-6级评测中,该模型以92.3分的成绩刷新机器翻译领域纪录,其对"画蛇添足"、"胸有成竹"等成语典故的语境理解准确率达98.7%,甚至能精准识别四川方言中"巴适"、"摆龙门阵"等俚语的情感色彩。在LlaMA Question、Web Questions等五大国际权威评测集上,Step-Audio的语义理解准确率、对话连贯性、指令遵循度等核心指标均位列开源模型第一。
情感化表达是该模型的另一大亮点。通过分析超过50万段真人对话的情感特征,Step-Audio构建了包含28种基础情绪、12种方言变体、5类歌唱风格的多维语音生成矩阵。在"客服场景"模拟测试中,模型能根据用户语句中的情绪关键词自动调整语气:当检测到用户表述包含"不满"情绪特征时,会自动切换为低语速、降音调的安抚性语音;面对儿童用户时则启用高频欢快语调,并适当增加尾音上扬的疑问句式,这种拟人化交互能力使沟通满意度提升62%。
技术架构上,Step-Audio首创"多模态理解生成一体化"框架,通过单模型架构实现从语音信号到语义向量的端到端处理。其创新的合成数据生成技术突破传统TTS对人工录音的依赖,可自动生成带情感标注的语音数据,使模型训练成本降低70%的同时,将语音合成自然度提升至4.8分(MOS评分,满分5分)。特别值得关注的是其开源的Step-Audio-TTS-3B模型,支持从文本直接生成说唱(RAP)与无伴奏哼唱,在音乐创作领域展现出巨大应用潜力。
技术深耕铸就核心竞争力,多模态布局初现成效
成立仅两年的阶跃星辰,已构建起覆盖语音、图像、视频全模态的技术矩阵。公司自2023年成立以来,以平均每两个月一款新产品的速度持续迭代,先后推出11款多模态模型,其中Step-1o大模型长期占据OpenCompass多模态评测榜首。这种技术爆发力源于其独特的"基础研究-工程转化-场景验证"研发闭环——团队50%以上成员来自清华、MIT等顶尖院校的AI实验室,核心研发人员平均拥有8年以上大模型工程化经验。
公司创始人在技术白皮书《迈向AGI的多模态之路》中提出清晰的发展路线图:从单模态专精到多模态融合,再到构建具备世界模型认知能力的通用人工智能。此次发布的Step-Video-T2V在技术报告中首次提出视频基础模型的分级理论:Level 1级模型实现跨模态翻译(如文本转视频),目前Sora、Step-Video等均属此类;Level 2级模型则需具备事件预测能力,能够基于物理规律生成符合因果逻辑的未来场景。这一理论框架与斯坦福大学李飞飞教授团队提出的"World Models"理念高度契合,预示着多模态大模型正从"内容生成"向"世界理解"加速演进。
吉利汽车的战略投资为阶跃星辰的技术落地提供了产业支撑。双方共建的"智能出行AI联合实验室"已将Step-Audio模型部署于吉利最新款智能座舱系统,通过情感化语音交互提升驾驶安全性;Step-Video-T2V则被用于汽车广告片自动化生成,使创意视频制作周期从传统的72小时缩短至45分钟。这种"技术开源+产业落地"的双轮驱动模式,为AI创业公司提供了可持续发展的新范式。
开源生态新格局:中国力量改写全球AI发展版图
当大模型赛道从"百模大战"进入精耕期,开源正成为技术突围的关键战略。阶跃星辰此次开源的两款模型,不仅提供完整训练代码、预训练权重与技术文档,更开放了包含128个真实场景的评测数据集,这种"全链路开源"模式极大降低了技术复用门槛。正如一位资深AI创业者所言:"当300亿参数量的模型可以免费商用,中小团队终于有机会与科技巨头站在同一起跑线竞争。"
在全球AI治理日益受到关注的背景下,中国团队的开源贡献具有特殊意义。Step-Video-T2V针对中文语境优化的语义理解模块,使"小桥流水人家"等诗意表达能精准转化为符合东方审美的视觉场景;Step-Audio对粤语、四川话等16种方言的原生支持,为方言文化数字化保护提供了技术工具。这些本土化创新正在重塑全球AI技术标准体系,使中国智慧在AGI发展进程中获得更多话语权。
随着Step系列模型的开源,国内大模型生态正形成"基础研究-开源共享-产业应用"的正向循环。技术社区的积极反馈已印证这一趋势:截至发稿,Step-Video-T2V在ModelScope平台的fork数量已突破500,来自全球27个国家的开发者提交了改进建议;Step-Audio则催生了教育、医疗等领域的20余个创新应用原型。这种开放式创新模式,正在将中国大模型产业推向"技术突破-生态共建-价值共享"的新阶段。
未来,随着多模态技术与传统产业的深度融合,开源大模型将在智能创作、工业设计、文化传播等领域释放巨大潜能。阶跃星辰的此次突破,不仅展现了中国AI企业的技术实力,更以开源共享的姿态为全球科技进步注入中国动力。在AGI的星辰大海上,中国力量正以开放包容的胸怀,与世界同行共同驶向通用人工智能的未来。
【免费下载链接】Step-Audio-TTS-3B 项目地址: https://ai.gitcode.com/StepFun/Step-Audio-TTS-3B
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



