IndexTTS2模型卡片:技术参数、性能指标与使用限制说明
模型概述
IndexTTS2是一款工业级可控高效零样本文本转语音(Text-to-Speech, TTS)系统,采用自回归架构实现精确的合成时长控制,同时支持可控与不可控两种生成模式。该模型通过多输入模态实现情感可控能力,在保持语音自然度的同时,解决了传统自回归模型难以精确控制合成时长的技术瓶颈。
技术参数
基础配置
| 参数类别 | 具体参数 |
|---|---|
| 模型版本 | 2.0 |
| 发布日期 | 2025年9月8日 |
| 支持语言 | 中文(主要)、英文 |
| 音频采样率 | 24kHz(主模型)、22050Hz(声码器输入)、16000Hz(特征提取) |
| 音频格式 | 16-bit PCM WAV |
| 依赖环境 | Python 3.8+、PyTorch 2.0+、CUDA 12.8+(推荐) |
网络结构参数
1. GPT模块(核心生成网络)
gpt:
model_dim: 1280 # 模型维度
layers: 24 # 网络层数
heads: 20 # 注意力头数
max_mel_tokens: 1815 # 最大梅尔频谱 tokens 长度
max_text_tokens: 600 # 最大文本 tokens 长度
number_text_tokens: 12000 # 文本词汇表大小
number_mel_codes: 8194 # 梅尔频谱编码数量
start_mel_token: 8192 # 梅尔序列起始标记
stop_mel_token: 8193 # 梅尔序列结束标记
condition_type: "conformer_perceiver" # 条件处理类型
condition_module: # 说话人条件模块
output_size: 512
linear_units: 2048
attention_heads: 8
num_blocks: 6
emo_condition_module: # 情感条件模块
output_size: 512
linear_units: 1024
attention_heads: 4
num_blocks: 4
2. 语义编解码器(Semantic Codec)
semantic_codec:
codebook_size: 8192 # 码本大小
hidden_size: 1024 # 隐藏层维度
codebook_dim: 8 # 码本向量维度
vocos_dim: 384 # Vocos解码器维度
vocos_intermediate_dim: 2048 # Vocos中间层维度
vocos_num_layers: 12 # Vocos网络层数
3. 声谱转换模块(S2Mel)
s2mel:
preprocess_params: # 预处理参数
sr: 22050 # 输入采样率
spect_params:
n_fft: 1024 # FFT大小
hop_length: 256 # 帧移
win_length: 1024 # 窗长
n_mels: 80 # 梅尔频谱维度
DiT: # 扩散Transformer
hidden_dim: 512 # 隐藏层维度
num_heads: 8 # 注意力头数
depth: 13 # 网络深度
block_size: 8192 # 序列块大小
wavenet: # 波形生成网络
hidden_dim: 512
num_layers: 8
kernel_size: 5
4. 声码器(Vocoder)
采用BigVGAN架构,配置如下:
- 类型:
bigvgan - 预训练模型:
nvidia/bigvgan_v2_22khz_80band_256x - 支持CUDA自定义融合激活核(可选)
情感控制参数
IndexTTS2支持多模态情感控制,包括:
- 情感参考音频:通过
emo_audio_prompt输入,权重由emo_alpha(0.0-1.0)调节 - 情感向量:8维向量
[happy, angry, sad, afraid, disgusted, melancholic, surprised, calm] - 文本情感描述:通过Qwen-0.6B模型将文本转换为情感向量,支持
use_emo_text开关
性能指标
合成质量
| 评估指标 | 数值范围 | 说明 |
|---|---|---|
| MOS评分 | 4.2-4.6/5.0 | 语音自然度(主观评分) |
| 说话人相似度 | 85%-92% | 与参考音频的相似度(余弦相似度) |
| 情感识别准确率 | 82%-88% | 情感迁移准确率(8分类任务) |
| 词错误率(WER) | <5% | 语音识别文本与输入文本的匹配度 |
效率指标(NVIDIA A100环境)
| 任务 | 性能指标 |
|---|---|
| 单句合成速度 | 0.8-1.2x实时(10秒文本≈8-12秒) |
| 批量处理能力 | 16句/批次(200字/句) |
| 显存占用 | 16GB(FP16模式,单实例) |
| 模型加载时间 | 45-60秒 |
功能特性
1. 时长控制
IndexTTS2支持两种生成模式:
- 可控模式:通过指定生成token数量精确控制合成时长(当前版本暂未开放)
- 自然模式:自动学习参考音频的韵律特征,保持自然断句和语速
2. 情感合成
支持多模态情感输入,通过以下方式控制:
# 示例1:使用情感参考音频
tts.infer(
spk_audio_prompt='examples/voice_07.wav',
text="酒楼丧尽天良,开始借机竞拍房间",
emo_audio_prompt="examples/emo_sad.wav", # 悲伤情感参考
emo_alpha=0.9,
output_path="sad_gen.wav"
)
# 示例2:使用情感向量
tts.infer(
spk_audio_prompt='examples/voice_10.wav',
text="哇塞!这个爆率也太高了!",
emo_vector=[0, 0, 0, 0, 0, 0, 0.45, 0], # 惊讶情感
output_path="surprised_gen.wav"
)
3. 零样本语音克隆
无需训练,仅通过5-15秒参考音频即可克隆说话人音色,支持:
- 语音清晰度保持(背景噪音<30dB时)
- 跨语言克隆(如用中文语音合成英文)
- 语速自适应(±30%范围内)
使用限制与约束
1. 输入限制
| 输入类型 | 限制条件 |
|---|---|
| 参考音频 | 长度5-15秒(超过自动截断),采样率≥16kHz |
| 文本输入 | 单句≤200字,批量处理需分段(默认120字/段) |
| 情感向量 | 各维度值范围[0,1],总和建议≤1.5 |
2. 性能瓶颈
- 长文本合成:超过600字需分段处理,可能导致韵律连贯性下降
- 极端情感迁移:如从平静到暴怒的跨度转换,可能出现音色失真
- 低资源环境:CPU模式下速度降低10-15倍,不支持FP16加速
3. 质量退化场景
在以下情况可能出现合成质量下降:
- 参考音频含混响、回声或强背景噪音(SNR<15dB)
- 文本包含专业术语、生僻字或混合语种(如"API接口")
- 情感强度设置过高(
emo_alpha>1.0)导致过度渲染
部署与优化建议
推荐配置
-
硬件:
- GPU:NVIDIA RTX 4090/A100(≥24GB显存)
- CPU:≥8核(推荐Intel i7/Ryzen 7)
- 内存:≥32GB(批量处理时)
-
优化参数:
# 高效推理配置
tts = IndexTTS2(
use_fp16=True, # 启用FP16精度(显存↓50%,速度↑30%)
use_cuda_kernel=True, # 启用BigVGAN CUDA内核(速度↑15%)
use_deepspeed=True # 启用DeepSpeed推理优化
)
# 长文本处理建议
segments = tokenizer.split_segments(text, max_text_tokens_per_segment=150) # 增加分段长度
wavs = [tts.infer(...) for segment in segments] # 批量合成后拼接
常见问题解决
| 问题现象 | 解决方案 |
|---|---|
| 合成音频有卡顿 | 1. 降低batch_size 2. 禁用DeepSpeed 3. 检查CUDA驱动 |
| 情感迁移效果不明显 | 1. 提高emo_alpha至0.8-1.0 2. 使用更长情感参考音频 |
| 显存溢出 | 1. 启用FP16 2. 降低max_mel_tokens至1500 3. 关闭CUDA内核 |
引用与致谢
如果使用本模型,请引用以下论文:
@article{zhou2025indextts2,
title={IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech},
author={Siyi Zhou, Yiquan Zhou, Yi He, Xun Zhou, Jinchao Wang, Wei Deng, Jingchen Shu},
journal={arXiv preprint arXiv:2506.21619},
year={2025}
}
模型开发依赖以下开源项目:
附录:模型架构图
注:本模型卡片基于IndexTTS2 v2.0版本,随着迭代可能更新。商业使用请联系indexspeech@bilibili.com。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



