阶跃星辰开源双引擎:Step系列多模态大模型重塑内容创作生态
【免费下载链接】stepvideo-t2v 项目地址: https://ai.gitcode.com/StepFun/stepvideo-t2v
大模型开源领域再迎突破性进展。2月19日,人工智能企业阶跃星辰正式对外发布两款重磅开源模型——视频生成模型Step-Video-T2V与语音交互模型Step-Audio,标志着国内多模态生成技术在开源赛道实现重要突破。据官方技术白皮书显示,Step-Video-T2V以300亿参数量刷新开源视频模型规模纪录,而Step-Audio则成为业内首个实现产品级落地的开源语音交互系统,两款模型已同步上线跃问App开放公众体验。
视频生成新纪元:300亿参数模型攻克物理运动难题
Step-Video-T2V凭借300亿参数量的深度架构,实现204帧540P高清视频的直接生成,其核心突破在于构建了动态物理空间理解系统。研发团队同步发布的Step-Video-T2V-Eval基准测试集,包含128条覆盖11个内容类别的真实用户指令,测试结果显示该模型在运动连贯性、物理合理性等关键指标上全面超越现有开源方案。
在复杂运动生成场景中,模型展现出对多物体空间关系的精准把控。无论是芭蕾舞者的足尖旋转、空手道选手的连续踢击,还是跳水运动员的空中翻腾动作,均能保持骨骼运动的自然流畅与物理规律的一致性。特别在"熊猫滑板"生成案例中,模型成功处理了动物姿态、地面坡度与滑板运动的动态耦合关系,生成视频中熊猫的重心转移与滑板的摩擦力表现符合现实物理规则,突破了当前视频模型普遍存在的"运动失真"瓶颈。
镜头语言系统是该模型的另一大亮点,支持推、拉、摇、移等电影级运镜模式,可实现从特写镜头到全景画面的平滑切换。在人物生成方面,模型通过精细化的五官拓扑结构建模,使皮肤纹理、发丝质感及微表情动态达到新高度,解决了以往AI生成人物"塑料感"的行业痛点。目前用户可通过跃问网页端(https://yuewen.cn/videos)直接体验文本到视频的全流程创作。
语音交互革命:首个产品级模型突破情感化沟通壁垒
Step-Audio的推出填补了开源语音交互领域的产品化空白,该模型创新性地将情感计算模块与语义理解深度融合,支持情绪调节、方言转换、多语种互译、歌唱合成等复合功能。在LlaMA Question、Web Questions等五大权威评测中,其综合性能指标均位列开源模型榜首,尤其在HSK-6汉语水平测试中展现出对中文语义的深刻理解,成功处理"下雨天留客天留我不留"等歧义句辨析,彰显出强大的语境感知能力。
模型的情感交互能力体现在构建了动态共情响应机制,在用户心理咨询、职业规划等对话场景中,能通过语气语调的微妙调整传递关怀态度。其韵律生成系统不仅支持标准普通话,还能精准复现各地方言的语音特征,并可将文本内容自动谱曲生成Rap、民谣等多种音乐风格。为解决行业评测标准缺失问题,研发团队同步开源StepEval-Audio-360评估体系,从9个维度建立语音模型的全面测评框架。
【免费下载链接】stepvideo-t2v 项目地址: https://ai.gitcode.com/StepFun/stepvideo-t2v
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



