阶跃星辰首发开源LLM级音频大模型革新文本驱动音频创作范式-优快云博客

阶跃星辰首发开源LLM级音频大模型革新文本驱动音频创作范式

【免费下载链接】Step-Audio-AQAA 项目地址: https://ai.gitcode.com/StepFun/Step-Audio-AQAA

2025年11月11日，人工智能领域再添突破性进展——阶跃星辰正式发布全球首个基于大语言模型（LLM）架构的开源音频编辑大模型Step-Audio-EditX。该模型以统一的LLM技术框架为核心，首次实现了文本指令驱动的全流程音频创作，标志着音频生成领域迈入智能化、精准化控制的新阶段。

作为新一代音频生成技术的标杆，Step-Audio-EditX在多项核心能力上实现突破。模型原生支持零样本语音合成（TTS）功能，用户无需预先训练即可直接生成高质量语音内容。在语言覆盖度方面，该模型不仅支持多语种转换，更深度整合了方言处理能力，能够精准复现不同地域的语言特征。情感与风格控制模块则让音频创作更具表现力，通过文本指令即可实时调整语音的情绪基调、语速节奏乃至如呼吸感、语调转折等副语言特征，使生成内容达到专业配音水准。

技术架构上，Step-Audio-EditX创新性地采用全链路LLM框架，彻底改变传统音频生成技术中信号处理与语义理解割裂的现状。通过将音频特征编码为可解析的语义向量，模型能够像理解文本一样深度解构音频内容，实现前所未有的编辑精度。这种架构设计同时赋予模型强大的跨模态理解能力，可直接对接文本、语音、音乐等多种输入形式，为复杂音频场景创作提供一体化解决方案。

该模型的开源特性将极大推动音频AI技术的普及与创新。开发者可通过ModelScope平台获取完整技术文档与部署工具链，快速构建个性化音频应用。针对不同使用场景，Step-Audio-EditX提供灵活的接入方案：科研人员可基于交互式建模工具PAI-DSW进行二次开发，企业用户则能通过模型即服务（MaaS）模式直接调用API，实现从原型验证到商业落地的无缝衔接。

随着Step-Audio-EditX的推出，音频创作行业正迎来效率革命。在智能客服、有声内容生产、影视后期制作等领域，该技术将大幅降低专业音频制作的技术门槛，使创作者能够专注于内容创意本身。教育、医疗、文化传播等行业也将因此获得更具沉浸感的语音交互解决方案。业内专家预测，LLM驱动的音频技术将在未来两年内重塑内容生产产业链，催生更多创新应用场景。

目前，Step-Audio-EditX已开放模型下载与技术社区交流通道。阶跃星辰同时宣布启动"音频AI创新计划"，将提供专项算力支持与技术培训，助力开发者生态建设。作为音频生成领域的里程碑式成果，该模型的开源释放不仅展现了中国AI企业在基础模型研发上的技术实力，更为全球音频技术创新注入新动能。

【免费下载链接】Step-Audio-AQAA 项目地址: https://ai.gitcode.com/StepFun/Step-Audio-AQAA

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

阶跃星辰首发开源LLM级音频大模型 革新文本驱动音频创作范式