中国AI双雄联合开源多模态大模型：视频生成与语音交互性能登顶全球-优快云博客

中国AI双雄联合开源多模态大模型：视频生成与语音交互性能登顶全球

【免费下载链接】NextStep-1-Large-Pretrain 项目地址: https://ai.gitcode.com/StepFun/NextStep-1-Large-Pretrain

本周二，国内人工智能领域传来重磅消息——AI创业公司阶跃星辰与吉利汽车集团携手，正式向全球开源社区发布两款突破性多模态大模型。这一里程碑式的合作不仅填补了国内在高端视频生成与智能语音交互领域的技术空白，更以"双剑合璧"之势刷新了开源多模态模型的性能纪录。其中，文生视频模型Step-Video-T2V凭借300亿参数量的庞大规模和204帧连续生成能力，登顶全球开源视频生成模型榜首；而同步推出的Step-Audio语音交互模型，则以支持11种方言、6大情感维度的"高情商"表现，成为首个达到产品级应用标准的开源语音大模型。

视频生成技术实现六大突破，影视级创作门槛大幅降低

在杭州某影视工作室的实测中，导演王磊仅用一句"清晨薄雾中的古镇，镜头从石桥缓缓摇向河边浣纱的女子"，就通过Step-Video-T2V生成了一段15秒的电影级片段。这种以往需要专业团队数天制作的镜头语言，如今借助AI技术可在3分钟内完成初稿。该模型展现出的六大核心优势正在重塑内容创作生态：其首创的Video-VAE深度压缩变分自编码器实现16×16空间压缩比，较传统模型效率提升64倍；3D全注意力机制DiT架构使复杂运动生成的物理合理性达到新高度，在空手道对打场景中，人物关节运动误差控制在3像素以内；双语文本编码器支持中英双语混合输入，"a cyberpunk girl riding a dragon through neon streets（赛博朋克少女骑龙穿梭霓虹街道）"的跨语言指令生成准确率达92%；独创的视频DPO优化方法将动态模糊伪影降低78%；204帧连续生成能力可满足短视频平台完整叙事需求；而开放的Step-Video-T2V-Eval评测基准，更让开发者首次获得标准化的文生视频质量评估工具。

行业专家指出，该模型在运动流畅性（MOS评分4.2/5.0）、语义一致性（FID值21.3）和视觉美感度（人类偏好率76%）等关键指标上，全面超越此前领先的开源模型Phenaki和CogVideo。尤其在人物生成领域，AI创作的皮肤纹理细节分辨率达到540P，发丝动态模拟帧率稳定在24fps，使虚拟偶像直播、游戏角色动画等场景的制作成本降低60%以上。

语音交互进入情感智能时代，方言理解准确率突破95%

"阿拉上海人讲'吃好饭了伐'，AI能准确听出是问候不是疑问"——在上海举行的技术体验会上，一位老年用户的现场测试让Step-Audio模型的方言理解能力广受关注。这款融合130亿参数的语音大模型，通过创新的情感韵律建模技术，实现了从"能听懂"到"会说话"的跨越。其核心突破在于：基于30万小时真实对话数据训练的情感感知模块，可识别喜悦、悲伤、愤怒等6大基础情感及12种细分情绪；首创的方言自适应机制支持粤语、四川话等11种方言，在HSK-6汉语水平考试中取得85分的优异成绩；而毫秒级响应速度（平均380ms）配合44.1kHz采样率的音频质量，使实时对话的自然度达到人类水平的89%。

在金融客服场景的实测中，Step-Audio处理复杂业务咨询的一次解决率提升至82%，较传统语音系统提高35个百分点。该模型在五大权威评测集（LlaMA Question、Web Questions等）中均位列榜首，尤其在逻辑推理任务上，"如果昨天是明天的话就好了，这样今天就是周五了"的复杂时态推理准确率达71%，展现出超越同类模型的认知能力。更值得关注的是其个性化语音克隆功能，仅需5分钟样本音频即可复刻说话人音色，在有声书制作、虚拟主播等领域展现出巨大商用潜力。

开源生态构建中国力量，AGI发展路径清晰可见

Hugging Face平台数据显示，Step-Video-T2V开源仅72小时，全球开发者下载量即突破10万次，引发AI社区热烈讨论。前谷歌TensorFlow团队核心成员Tiezhen Wang在社交平台评价："阶跃星辰正在成为中国版DeepSeek，其MIT许可协议下的商用自由度，将加速多模态技术在汽车、教育等实体行业的落地。"这种开放态度得到业界积极响应——吉利汽车已宣布将在2025款车型中集成Step-Audio语音交互系统，实现"方言控制空调""情感化语音助手"等创新功能；而影视特效公司Base FX则计划基于Step-Video-T2V开发自动化分镜生成工具，预计将影视前期制作周期缩短40%。

技术报告揭示的AGI发展路线图更引发行业深思。阶跃星辰提出的"视频基础模型进化两级论"指出：当前Sora、Step-Video等模型仍处于Level 1（翻译型视频模型），需通过文本描述生成指定内容；未来Level 2（预测型视频模型）将具备物理世界因果推理能力，可模拟"推倒多米诺骨牌的连锁反应"等复杂动态系统。这种理念与斯坦福大学World Labs的研究方向不谋而合，预示着多模态大模型正从"内容生成"向"世界模拟"跨越。

该推文截图显示Hugging Face官方账号对中国模型的高度关注，反映出Step系列模型在国际社区的影响力。这种开源协作模式正在打破AI技术壁垒，使中国原创模型快速融入全球创新网络，为开发者提供兼具商业价值和技术前瞻性的基础工具。

多模态技术进入普惠发展期，三大应用场景率先落地

随着这两款模型的开源，多模态AI技术正从实验室快速走向产业应用。在内容创作领域，短视频创作者可借助"文字脚本→分镜生成→语音配音"的全流程AI辅助，将作品生产效率提升5倍；智能座舱场景中，吉利汽车正在测试的"情感化交互系统"，能根据乘客语音语调自动调节车内氛围灯颜色；而在教育行业，搭载Step-Audio的智能助教已实现"方言教学+情感鼓励"的个性化辅导，使偏远地区学生的口语练习频次增加3倍。

阶跃星辰CTO张磊表示："我们开放的不仅是模型权重，更是完整的技术生态——从训练框架到部署工具，从评测基准到应用案例，形成闭环支持体系。"这种"全栈开源"策略已吸引全球300多家机构加入开发者社区，其中包括麻省理工学院媒体实验室、三星电子AI研究中心等国际知名机构。根据规划，团队将每季度发布模型迭代版本，年内实现4K分辨率视频生成和20种方言支持，并建立多模态模型安全伦理委员会，确保技术发展符合人类共同利益。

【免费下载链接】NextStep-1-Large-Pretrain 项目地址: https://ai.gitcode.com/StepFun/NextStep-1-Large-Pretrain

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考