在人工智能语音合成领域,一项革命性的成果正引发行业广泛关注——Step-Audio-TTS-3B模型横空出世。作为业界首次采用LLM-Chat范式在大规模合成数据集上训练的文本转语音系统,该模型在SEED TTS Eval基准测试中创下字符错误率(CER)的最新纪录。其核心优势不仅体现在多语言支持、丰富情感表达和多样化语音风格控制上,更开创性地实现了说唱(RAP)与哼唱(Humming)的生成能力,为语音合成技术开辟了全新的应用维度。
【免费下载链接】Step-Audio-TTS-3B 项目地址: https://ai.gitcode.com/StepFun/Step-Audio-TTS-3B
开发者可通过官方代码仓库获取Step-Audio-TTS-3B的完整资源包,其中包含采用双码本(dual-codebook)训练的大语言模型主体、配套的双码本声码器,以及专为哼唱生成优化的专用声码器模块。这套完整的技术方案依托先进的双码本训练方法论,为开发者提供了构建高质量语音合成与哼唱应用的全套工具链。
主流TTS模型内容一致性评测对比
为直观展现Step-Audio-TTS-3B的技术领先性,我们选取当前行业标杆模型进行了内容一致性的量化对比。测试结果如下表所示:
| 模型名称 | 中文测试集 | 英文测试集 |
|---|---|---|
| 字符错误率(%) ↓ | 词错误率(%) ↓ | |
| GLM-4-Voice | 2.19 | 2.91 |
| MinMo | 2.48 | 2.90 |
| Step-Audio | 1.53 | 2.71 |
从测试数据可见,Step-Audio在中文场景下实现了1.53%的CER值,较GLM-4-Voice降低29.2%的错误率;英文场景下以2.71%的WER值,超越MinMo模型0.19个百分点,充分验证了其在跨语言内容转换中的精准度优势。
SEED基准测试集上的综合性能表现
为全面评估模型的综合能力,我们在SEED标准测试集上进行了多维度评测,同时对比了Step-Audio-TTS-3B系列的不同配置版本(注:StepAudio-TTS-3B-Single表示采用单码本声码器的双码本主干模型)。
| 模型名称 | 中文测试集 | 英文测试集 | ||
|---|---|---|---|---|
| 字符错误率(%) ↓ | 相似度得分 ↑ | 词错误率(%) ↓ | 相似度得分 ↑ | |
| FireRedTTS | 1.51 | 0.630 | 3.82 | 0.460 |
| MaskGCT | 2.27 | 0.774 | 2.62 | 0.774 |
| CosyVoice | 3.63 | 0.775 | 4.29 | 0.699 |
| CosyVoice 2 | 1.45 | 0.806 | 2.57 | 0.736 |
| CosyVoice 2-S | 1.45 | 0.812 | 2.38 | 0.743 |
| Step-Audio-TTS-3B-Single | 1.37 | 0.802 | 2.52 | 0.704 |
| Step-Audio-TTS-3B | 1.31 | 0.733 | 2.31 | 0.660 |
| Step-Audio-TTS | 1.17 | 0.73 | 2.0 | 0.660 |
测试结果显示,全配置版本的Step-Audio-TTS-3B在中文场景下实现1.31%的CER值,英文场景达到2.31%的WER值,均显著优于同类模型。特别值得注意的是,进阶版Step-Audio-TTS更是将中文CER降至1.17%,英文WER优化至2.0%,展现出通过架构优化持续提升性能的技术潜力。虽然在相似度得分(SS)指标上与部分模型存在差距,但考虑到该模型在内容准确性上的压倒性优势,这种权衡在注重信息传递精度的应用场景中具有重要价值。
双码本重合成技术性能深度解析
双码本技术作为Step-Audio-TTS-3B的核心创新点,我们特别针对其重合成(Resynthesis)能力与行业领先的Cosyvoice模型进行了专项对比。测试结果如下:
| 测试对象 | 中文测试集 | 英文测试集 | ||
|---|---|---|---|---|
| 字符错误率(%) ↓ | 相似度得分 ↑ | 词错误率(%) ↓ | 相似度得分 ↑ | |
| 原始音频 | 0.972 | - | 2.156 | - |
| CosyVoice | 2.857 | 0.849 | 4.519 | 0.807 |
| Step-Audio-TTS-3B | 2.192 | 0.784 | 3.585 | 0.742 |
数据表明,Step-Audio-TTS-3B的双码本技术在内容准确性上展现出显著优势:中文重合成的字符错误率较Cosyvoice降低23.3%,英文词错误率降低20.7%。这种精度优势在需要高保真传递信息的应用场景(如语音助手、有声阅读)中具有不可替代的价值,尽管在音频相似度指标上略逊于对手,但技术团队表示这一差距可通过后续声码器优化进一步缩小。
Step-Audio-TTS-3B的问世标志着语音合成技术从"能说话"向"会表达"的关键跨越。其在技术路线上的创新不仅体现在工程实现层面,更重新定义了TTS系统的能力边界。随着模型的开源发布,预计将在智能交互、内容创作、辅助技术等领域催生大量创新应用。开发者可通过访问代码仓库https://gitcode.com/StepFun/Step-Audio-TTS-3B获取完整的模型权重与实现细节,共同探索语音合成技术的未来可能性。
展望未来,Step-Audio技术团队计划在保持内容准确性优势的基础上,进一步提升音频自然度与情感表现力,同时优化模型推理效率,推动该技术在移动端等资源受限场景的落地应用。随着多模态交互需求的增长,融合视觉信息的语音合成、个性化声音生成等前沿方向也将成为团队的重点研发领域。
【免费下载链接】Step-Audio-TTS-3B 项目地址: https://ai.gitcode.com/StepFun/Step-Audio-TTS-3B
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



