阶跃星辰发布开源语音大模型Step-Audio 2 mini，重新定义人机交互智能标准-优快云博客

9月1日，多模态人工智能领域的先锋企业阶跃星辰对外宣布，其最新研发的端到端语音大模型Step-Audio 2 mini正式开源。这款被称作“当前领先”的语音AI模型，凭借在多项国际权威测评中创下的SOTA纪录，成功优化了长期制约智能交互发展的技术瓶颈，为各类终端设备实现高效自然人机对话开辟了全新路径。

【免费下载链接】Step-Audio-2-mini 项目地址: https://ai.gitcode.com/hf_mirrors/stepfun-ai/Step-Audio-2-mini

在技术架构上，Step-Audio 2 mini采用创新性的端到端多模态设计，创造性地将语音识别、音频内容理解与语言生成功能整合为统一模型框架。这种创新架构不仅显著缩短了系统响应延迟并提升了处理速度，更能精准捕捉语音交流中的情绪语调、背景音效等关键辅助信息，使机器首次具备了理解人类“弦外之音”的能力，从根本上提升了语音交互的智能水平和用户体验。目前该模型已在Gitcode、Hugging Face等主流开源平台开放下载，开发者可直接获取进行二次开发与应用测试。

如上图所示，该对比表格清晰呈现了Step-Audio 2 mini在MMAU语音理解、URO Bench交互任务、CoVoST 2跨语种翻译等核心测试项目中的领先优势。这一测评结果充分体现了模型在多维度语音处理能力上的全面优化，为AI开发者提供了衡量语音模型性能的全新基准参考。

测评数据显示，Step-Audio 2 mini在各项关键指标上均展现出显著优势。在国际通用的多模态语音评估体系中，该模型不仅全面超越Qwen-Omni、Kimi-Audio等同类开源产品，更在语音情感识别、复杂指令解析等核心任务上实现了对GPT-4o-audio的超越。特别是在跨语言实时翻译、环境音效事件检测等复杂场景中，模型展现出的理解深度和反应速度，为构建真正智能化的语音交互系统提供了坚实的技术支撑。

面对语音交互成为主流人机接口的行业趋势，Step-Audio 2 mini针对性地开发了多项创新功能。其首创的音频推理引擎能够精准解析语音中的情绪波动、说话意图甚至背景音乐等非语言信息，使AI回应更具同理心和情境适应性；同时率先实现的语音原生工具调用能力，让模型可直接联网获取实时信息，既有效规避了传统AI的“信息不准确”问题，又赋予语音交互系统媲美文本大模型的知识广度与逻辑推理能力。

在产业应用层面，阶跃星辰已构建起成熟的商业化落地路径。此前吉利汽车发布的银河M9车型，就率先搭载了该公司研发的端到端语音技术，完成了业内首次语音大模型的车规级量产应用。自去年推出国内首个千亿参数语音模型Step-1o Audio以来，阶跃星辰持续深化技术迭代，目前已与鲸鱼机器人、TCL智能终端、Cyan青心意创等行业领军企业建立战略合作伙伴关系，推动语音AI技术在智能家居、可穿戴设备、智能出行等多元场景的规模化应用。

作为开源生态的积极建设者，阶跃星辰今年已累计向社区贡献8款性能领先的多模态AI模型，覆盖语音处理、视频生成、图像编辑、3D内容创建等多个技术领域。Step-Audio 2 mini的发布，不仅巩固了公司在语音AI领域的技术优势，更通过开源协作模式加速了行业创新进程，为人机交互智能化升级提供了强大技术引擎。随着终端设备语音交互需求的爆发式增长，这款具备高智商、高情商的语音大模型有望成为推动消费电子产业智能化转型的关键基础设施。

【免费下载链接】Step-Audio-2-mini 项目地址: https://ai.gitcode.com/hf_mirrors/stepfun-ai/Step-Audio-2-mini

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考