阶跃星辰双模型开源:语音交互与视频生成技术突破引领多模态AI新纪元
【免费下载链接】Step-Audio-Tokenizer 项目地址: https://ai.gitcode.com/StepFun/Step-Audio-Tokenizer
全球AI开源社区近日迎来重大技术突破——阶跃星辰(StepFun)正式对外发布两款多模态基础模型:产品级语音交互模型Step-Audio与300亿参数视频生成模型Step-Video-T2V。开源首日,相关代码仓库在代码托管平台即实现千星增长,标志着中国团队在多模态大模型领域的技术实力获得国际认可。作为致力于构建通用人工智能(AGI)的科技企业,阶跃星辰此次开源旨在汇聚全球开发者智慧,共同推进多模态技术的产业化落地。
多模态交互被公认为实现AGI的核心路径,但当前行业仍面临语音理解碎片化、视频生成质量不足等痛点。阶跃星辰技术团队表示,通过开源这两款经过工业级验证的模型,希望建立标准化技术底座,降低多模态应用开发门槛。据第三方评测显示,Step-Video-T2V在参数量与生成效果上已跻身全球开源视频模型第一梯队,而Step-Audio则填补了产品级开源语音交互系统的行业空白。
Step-Audio:重新定义智能语音交互体验
作为业内首个实现产品级落地的开源语音交互模型,Step-Audio突破传统语音系统的功能边界,支持情绪调节、方言转换、多角色克隆等复杂交互需求。该模型生成的语音不仅自然度媲美真人对话,更具备上下文理解能力,可在影视配音、智能客服、虚拟主播等场景实现深度应用。其核心技术创新体现在四大维度:
千亿级一体化架构构建了语音理解与生成的完整闭环,通过1300亿参数的Step-Audio-Chat模型,实现从语音识别、语义解析到语音合成的端到端处理,避免传统多模块拼接导致的信息损耗。革命性合成数据引擎打破对人工录音的依赖,利用模型自生成能力构建千万级高质量语音库,形成"数据生成-模型训练"的良性循环,同步开源的Step-Audio-TTS-3B模型已支持说唱、哼唱等专业声乐生成。
在精细控制层面,模型可精准调节20余种情绪特征、15种方言变体及多风格演唱技巧,配合ToolCall工具调用机制,能够作为智能体(Agent)完成复杂任务执行。特别值得关注的是其跨模态语义理解能力,在汉语水平考试六级(HSK-6)评测中表现优异,展现出对中文语境的深度把握,解决了传统语音模型易受歧义表达干扰的问题。
创新双码本编码架构解析
Step-Audio的技术突破源于其独创的音频编码方案。系统采用语言分词器(Linguistic Tokenizer)与语义分词器(Semantic Tokenizer)并行处理架构,通过时序交错策略实现多维度音频特征的精准捕捉。
如上图所示,语音信号经预处理后,分别通过16.7Hz码率的语言分词器(码本大小1024)和25Hz码率的语义分词器(码本大小4096)进行特征提取。这种双码本设计实现了语言学特征与声学细节的分离建模,为精细语音控制提供技术基础,开发者可基于此架构构建个性化语音交互系统。
解码端采用流匹配(Flow Matching)与神经声码器混合架构,在保证100ms级响应速度的同时,通过双码交错训练技术提升语音自然度。后训练阶段创新性引入RLHF人类反馈机制,使模型在情感表达、语速控制等主观指标上达到商用标准。
为客观评估模型性能,阶跃星辰构建并开源StepEval-Audio-360评测体系,从9个维度对语音模型进行全面考核。测试结果显示,Step-Audio在逻辑推理、角色扮演等高级能力上全面超越现有开源方案,尤其在HSK-6汉语理解测试中正确率达89%,成为首个通过专业汉语等级考试的AI语音系统。
Step-Video-T2V:突破视频生成技术天花板
面对文本生成视频领域的质量瓶颈,Step-Video-T2V以300亿参数规模构建起行业领先的生成体系,支持最长204帧(8-10秒)540P分辨率视频输出。该模型通过创新的视频压缩编码与时空建模技术,解决了长序列生成中的一致性难题,其技术架构包含三大核心创新:
高压缩比视频VAE采用双流信息处理机制,在实现16×16空间压缩与8倍时间压缩的同时,保持与低倍率VAE相当的重建质量。这一突破使模型能够处理长达204帧的视频序列,较传统方案提升3倍时长。混合文本编码系统融合Hunyuan-CLIP与Step-LLM优势,前者提供77词以内的精确视觉对齐,后者支持无限长度文本解析,解决长提示词理解难题。
3D动态建模技术对传统DiT架构进行重构,引入3D-RoPE相对位置编码,使模型能同时捕捉视频的时间连续性与空间关联性。训练过程中创新性加入QK-Norm机制,在混合分辨率数据训练时仍保持稳定收敛,最终实现复杂运动场景的自然生成。
级联训练策略是模型性能的关键保障,分为四个阶段渐进优化:首先通过文本到图像(T2I)预训练构建视觉基础,接着进入文本-视频联合训练阶段,分低分辨率(192x320)与高分辨率(544x992)两个层次学习动态特征,随后通过监督微调(SFT)优化生成质量,最后采用直接偏好优化(DPO)提升与人类审美偏好的对齐度。
在Step-Video-T2V-Eval基准测试中,该模型在11个视频类别上的综合评分超越当前主流开源方案,尤其在复杂运动生成与物理规律遵循方面表现突出。实测显示,模型能精准还原熊猫滑板等动态场景中的空间关系,支持推、拉、摇、移等专业镜头语言,为视频创作提供全新可能。
开源生态与产业影响
阶跃星辰已通过代码托管平台开放两款模型的完整代码与权重文件,并提供阿里云PAI平台的一键部署方案。开发者可通过技术报告深入了解模型细节,或直接通过跃问视频平台体验生成效果。技术团队表示,未来将持续迭代模型能力,重点优化多轮对话连贯性与视频生成效率。
此次开源不仅提供技术工具,更构建起标准化的多模态开发范式。对于企业开发者,可基于Step-Audio快速构建智能语音交互系统;内容创作者能借助Step-Video-T2V实现文本到视频的高效转化;研究机构则可利用开放代码探索多模态模型的改进方向。随着更多开发者参与优化,预计将加速多模态技术在教育、娱乐、营销等领域的创新应用。
作为AGI探索的重要一步,阶跃星辰的开源实践为行业树立了技术共享的典范。随着语音交互与视频生成技术的普及,人机交互将进入更自然、更智能的新阶段,最终推动AI从工具属性向伙伴角色的深刻转变。
【免费下载链接】Step-Audio-Tokenizer 项目地址: https://ai.gitcode.com/StepFun/Step-Audio-Tokenizer
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



