阶跃星辰首发开源LLM级音频大模型 革新文本驱动音频创作范式
【免费下载链接】Step-Audio-AQAA 项目地址: https://ai.gitcode.com/StepFun/Step-Audio-AQAA
2025年11月11日,人工智能领域再添突破性进展——阶跃星辰正式发布全球首个基于大语言模型(LLM)架构的开源音频编辑大模型Step-Audio-EditX。该模型以统一的LLM技术框架为核心,首次实现了文本指令驱动的全流程音频创作,标志着音频生成领域迈入智能化、精准化控制的新阶段。
作为新一代音频生成技术的标杆,Step-Audio-EditX在多项核心能力上实现突破。模型原生支持零样本语音合成(TTS)功能,用户无需预先训练即可直接生成高质量语音内容。在语言覆盖度方面,该模型不仅支持多语种转换,更深度整合了方言处理能力,能够精准复现不同地域的语言特征。情感与风格控制模块则让音频创作更具表现力,通过文本指令即可实时调整语音的情绪基调、语速节奏乃至如呼吸感、语调转折等副语言特征,使生成内容达到专业配音水准。
技术架构上,Step-Audio-EditX创新性地采用全链路LLM框架,彻底改变传统音频生成技术中信号处理与语义理解割裂的现状。通过将音频特征编码为可解析的语义向量,模型能够像理解文本一样深度解构音频内容,实现前所未有的编辑精度。这种架构设计同时赋予模型强大的跨模态理解能力,可直接对接文本、语音、音乐等多种输入形式,为复杂音频场景创作提供一体化解决方案。
该模型的开源特性将极大推动音频AI技术的普及与创新。开发者可通过ModelScope平台获取完整技术文档与部署工具链,快速构建个性化音频应用。针对不同使用场景,Step-Audio-EditX提供灵活的接入方案:科研人员可基于交互式建模工具PAI-DSW进行二次开发,企业用户则能通过模型即服务(MaaS)模式直接调用API,实现从原型验证到商业落地的无缝衔接。
随着Step-Audio-EditX的推出,音频创作行业正迎来效率革命。在智能客服、有声内容生产、影视后期制作等领域,该技术将大幅降低专业音频制作的技术门槛,使创作者能够专注于内容创意本身。教育、医疗、文化传播等行业也将因此获得更具沉浸感的语音交互解决方案。业内专家预测,LLM驱动的音频技术将在未来两年内重塑内容生产产业链,催生更多创新应用场景。
目前,Step-Audio-EditX已开放模型下载与技术社区交流通道。阶跃星辰同时宣布启动"音频AI创新计划",将提供专项算力支持与技术培训,助力开发者生态建设。作为音频生成领域的里程碑式成果,该模型的开源释放不仅展现了中国AI企业在基础模型研发上的技术实力,更为全球音频技术创新注入新动能。
【免费下载链接】Step-Audio-AQAA 项目地址: https://ai.gitcode.com/StepFun/Step-Audio-AQAA
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



