Spark-TTS: 不依赖模型生成声学特征的TTS

最新推荐文章于 2025-11-14 01:59:46 发布

原创

最新推荐文章于 2025-11-14 01:59:46 发布 · 1.2k 阅读

CC 4.0 BY-SA版权

文章标签：

GitHub：https://github.com/sparkaudio/spark-tts

更多AI开源软件：发现分享好用的AI工具、AI开源软件、AI模型、AI变现 - 小众AI

Spark-TTS 完全基于 Qwen2.5 构建，无需使用流匹配等额外生成模型。它无需依赖单独的模型来生成声学特征，而是直接从 LLM 预测的代码中重建音频。这种方法简化了流程，提高了效率并降低了复杂性。

上传任意10秒语音片段，瞬间复刻声纹特征！无论是跨语种的中英混说，还是模仿特定语调，通通零样本实现。自媒体博主惊呼："我的百万声库要失业了！"

简单高效：Spark-TTS 完全基于 Qwen2.5 构建，无需额外的生成模型，如流程匹配。它不依赖单独的模型来生成声学特征，而是直接从 LLM 预测的代码中重建音频。这种方法简化了流程，提高了效率并降低了复杂性。
高质量语音克隆：支持零样本语音克隆，这意味着即使没有针对该语音的特定训练数据，它也可以复制说话者的语音。这是跨语言和代码切换场景的理想选择，允许在语言和语音之间无缝转换，而无需对每种语言和语音进行单独培训。
双语支持：支持中英文，能够针对跨语言和换码场景进行零镜头语音克隆，使模型能够以高自然度和准确性合成多种语言的语音。