突破性文本转语音模型Step-Audio-TTS-3B:引领语音合成技术新纪元

在人工智能语音合成领域,一项革命性的成果正引发行业广泛关注——Step-Audio-TTS-3B模型横空出世。作为业界首次采用LLM-Chat范式在大规模合成数据集上训练的文本转语音系统,该模型在SEED TTS Eval基准测试中创下字符错误率(CER)的最新纪录。其核心优势不仅体现在多语言支持、丰富情感表达和多样化语音风格控制上,更开创性地实现了说唱(RAP)与哼唱(Humming)的生成能力,为语音合成技术开辟了全新的应用维度。

【免费下载链接】Step-Audio-TTS-3B 【免费下载链接】Step-Audio-TTS-3B 项目地址: https://ai.gitcode.com/StepFun/Step-Audio-TTS-3B

开发者可通过官方代码仓库获取Step-Audio-TTS-3B的完整资源包,其中包含采用双码本(dual-codebook)训练的大语言模型主体、配套的双码本声码器,以及专为哼唱生成优化的专用声码器模块。这套完整的技术方案依托先进的双码本训练方法论,为开发者提供了构建高质量语音合成与哼唱应用的全套工具链。

主流TTS模型内容一致性评测对比

为直观展现Step-Audio-TTS-3B的技术领先性,我们选取当前行业标杆模型进行了内容一致性的量化对比。测试结果如下表所示:

模型名称中文测试集英文测试集
字符错误率(%) ↓词错误率(%) ↓
GLM-4-Voice2.192.91
MinMo2.482.90
Step-Audio1.532.71

从测试数据可见,Step-Audio在中文场景下实现了1.53%的CER值,较GLM-4-Voice降低29.2%的错误率;英文场景下以2.71%的WER值,超越MinMo模型0.19个百分点,充分验证了其在跨语言内容转换中的精准度优势。

SEED基准测试集上的综合性能表现

为全面评估模型的综合能力,我们在SEED标准测试集上进行了多维度评测,同时对比了Step-Audio-TTS-3B系列的不同配置版本(注:StepAudio-TTS-3B-Single表示采用单码本声码器的双码本主干模型)。

模型名称中文测试集英文测试集
字符错误率(%) ↓相似度得分 ↑词错误率(%) ↓相似度得分 ↑
FireRedTTS1.510.6303.820.460
MaskGCT2.270.7742.620.774
CosyVoice3.630.7754.290.699
CosyVoice 21.450.8062.570.736
CosyVoice 2-S1.450.8122.380.743
Step-Audio-TTS-3B-Single1.370.8022.520.704
Step-Audio-TTS-3B1.310.7332.310.660
Step-Audio-TTS1.170.732.00.660

测试结果显示,全配置版本的Step-Audio-TTS-3B在中文场景下实现1.31%的CER值,英文场景达到2.31%的WER值,均显著优于同类模型。特别值得注意的是,进阶版Step-Audio-TTS更是将中文CER降至1.17%,英文WER优化至2.0%,展现出通过架构优化持续提升性能的技术潜力。虽然在相似度得分(SS)指标上与部分模型存在差距,但考虑到该模型在内容准确性上的压倒性优势,这种权衡在注重信息传递精度的应用场景中具有重要价值。

双码本重合成技术性能深度解析

双码本技术作为Step-Audio-TTS-3B的核心创新点,我们特别针对其重合成(Resynthesis)能力与行业领先的Cosyvoice模型进行了专项对比。测试结果如下:

测试对象中文测试集英文测试集
字符错误率(%) ↓相似度得分 ↑词错误率(%) ↓相似度得分 ↑
原始音频0.972-2.156-
CosyVoice2.8570.8494.5190.807
Step-Audio-TTS-3B2.1920.7843.5850.742

数据表明,Step-Audio-TTS-3B的双码本技术在内容准确性上展现出显著优势:中文重合成的字符错误率较Cosyvoice降低23.3%,英文词错误率降低20.7%。这种精度优势在需要高保真传递信息的应用场景(如语音助手、有声阅读)中具有不可替代的价值,尽管在音频相似度指标上略逊于对手,但技术团队表示这一差距可通过后续声码器优化进一步缩小。

Step-Audio-TTS-3B的问世标志着语音合成技术从"能说话"向"会表达"的关键跨越。其在技术路线上的创新不仅体现在工程实现层面,更重新定义了TTS系统的能力边界。随着模型的开源发布,预计将在智能交互、内容创作、辅助技术等领域催生大量创新应用。开发者可通过访问代码仓库https://gitcode.com/StepFun/Step-Audio-TTS-3B获取完整的模型权重与实现细节,共同探索语音合成技术的未来可能性。

展望未来,Step-Audio技术团队计划在保持内容准确性优势的基础上,进一步提升音频自然度与情感表现力,同时优化模型推理效率,推动该技术在移动端等资源受限场景的落地应用。随着多模态交互需求的增长,融合视觉信息的语音合成、个性化声音生成等前沿方向也将成为团队的重点研发领域。

【免费下载链接】Step-Audio-TTS-3B 【免费下载链接】Step-Audio-TTS-3B 项目地址: https://ai.gitcode.com/StepFun/Step-Audio-TTS-3B

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值