Index-TTS 是由 哔哩哔哩(B站) 开源的工业级文本转语音(TTS)系统,融合了 GPT 风格的生成式模型架构,专注于高质量、可控性强的零样本语音合成与克隆。以下是其核心特性和技术解析:
🧠 一、核心定位与技术基础
- 技术来源
基于 XTTS 和 Tortoise 模型 改进,采用类 GPT 的自回归生成架构,支持中英文语音合成与克隆。 - 工业级设计目标
追求高稳定性、低资源消耗(最低 6GB 显存 可部署),适用于生产环境的长文本处理和实时交互场景。
⚙️ 二、关键技术突破
-
中文优化能力
- 拼音纠错:通过字符-拼音混合建模,自动校正多音字发音(如“行”在
xíng/háng间的动态切换),多音字误读率从 8.7% 降至 0.9%。 - 精准停顿控制:利用标点符号(逗号/句号)实现毫秒级停顿(逗号 0.3 秒,句号 0.8 秒),古文断句准确率达 98.6%。
- 拼音纠错:通过字符-拼音混合建模,自动校正多音字发音(如“行”在
-
音质增强架构
- Conformer 编码器:结合 Transformer 全局注意力与 CNN 局部感知,提升长文本韵律一致性 42%。
- BigVGAN2 解码器:生成 48kHz 高保真音频,主观音质评分(MOS)达 4.01(接近真人水平)。
-
零样本

最低0.47元/天 解锁文章
2651

被折叠的 条评论
为什么被折叠?



