IndexTTS2模型卡片:技术参数、性能指标与使用限制说明

IndexTTS2模型卡片:技术参数、性能指标与使用限制说明

【免费下载链接】index-tts An Industrial-Level Controllable and Efficient Zero-Shot Text-To-Speech System 【免费下载链接】index-tts 项目地址: https://gitcode.com/gh_mirrors/in/index-tts

模型概述

IndexTTS2是一款工业级可控高效零样本文本转语音(Text-to-Speech, TTS)系统,采用自回归架构实现精确的合成时长控制,同时支持可控与不可控两种生成模式。该模型通过多输入模态实现情感可控能力,在保持语音自然度的同时,解决了传统自回归模型难以精确控制合成时长的技术瓶颈。

技术参数

基础配置

参数类别具体参数
模型版本2.0
发布日期2025年9月8日
支持语言中文(主要)、英文
音频采样率24kHz(主模型)、22050Hz(声码器输入)、16000Hz(特征提取)
音频格式16-bit PCM WAV
依赖环境Python 3.8+、PyTorch 2.0+、CUDA 12.8+(推荐)

网络结构参数

1. GPT模块(核心生成网络)
gpt:
  model_dim: 1280                  # 模型维度
  layers: 24                       # 网络层数
  heads: 20                        # 注意力头数
  max_mel_tokens: 1815             # 最大梅尔频谱 tokens 长度
  max_text_tokens: 600             # 最大文本 tokens 长度
  number_text_tokens: 12000        # 文本词汇表大小
  number_mel_codes: 8194           # 梅尔频谱编码数量
  start_mel_token: 8192            # 梅尔序列起始标记
  stop_mel_token: 8193             # 梅尔序列结束标记
  condition_type: "conformer_perceiver"  # 条件处理类型
  condition_module:                # 说话人条件模块
    output_size: 512
    linear_units: 2048
    attention_heads: 8
    num_blocks: 6
  emo_condition_module:            # 情感条件模块
    output_size: 512
    linear_units: 1024
    attention_heads: 4
    num_blocks: 4
2. 语义编解码器(Semantic Codec)
semantic_codec:
  codebook_size: 8192              # 码本大小
  hidden_size: 1024                # 隐藏层维度
  codebook_dim: 8                  # 码本向量维度
  vocos_dim: 384                   # Vocos解码器维度
  vocos_intermediate_dim: 2048     # Vocos中间层维度
  vocos_num_layers: 12             # Vocos网络层数
3. 声谱转换模块(S2Mel)
s2mel:
  preprocess_params:               # 预处理参数
    sr: 22050                      # 输入采样率
    spect_params:
      n_fft: 1024                  # FFT大小
      hop_length: 256              # 帧移
      win_length: 1024             # 窗长
      n_mels: 80                   # 梅尔频谱维度
  DiT:                             # 扩散Transformer
    hidden_dim: 512                # 隐藏层维度
    num_heads: 8                   # 注意力头数
    depth: 13                      # 网络深度
    block_size: 8192               # 序列块大小
  wavenet:                         # 波形生成网络
    hidden_dim: 512
    num_layers: 8
    kernel_size: 5
4. 声码器(Vocoder)

采用BigVGAN架构,配置如下:

  • 类型:bigvgan
  • 预训练模型:nvidia/bigvgan_v2_22khz_80band_256x
  • 支持CUDA自定义融合激活核(可选)

情感控制参数

IndexTTS2支持多模态情感控制,包括:

  • 情感参考音频:通过emo_audio_prompt输入,权重由emo_alpha(0.0-1.0)调节
  • 情感向量:8维向量[happy, angry, sad, afraid, disgusted, melancholic, surprised, calm]
  • 文本情感描述:通过Qwen-0.6B模型将文本转换为情感向量,支持use_emo_text开关

性能指标

合成质量

评估指标数值范围说明
MOS评分4.2-4.6/5.0语音自然度(主观评分)
说话人相似度85%-92%与参考音频的相似度(余弦相似度)
情感识别准确率82%-88%情感迁移准确率(8分类任务)
词错误率(WER)<5%语音识别文本与输入文本的匹配度

效率指标(NVIDIA A100环境)

任务性能指标
单句合成速度0.8-1.2x实时(10秒文本≈8-12秒)
批量处理能力16句/批次(200字/句)
显存占用16GB(FP16模式,单实例)
模型加载时间45-60秒

功能特性

1. 时长控制

IndexTTS2支持两种生成模式:

  • 可控模式:通过指定生成token数量精确控制合成时长(当前版本暂未开放)
  • 自然模式:自动学习参考音频的韵律特征,保持自然断句和语速

2. 情感合成

支持多模态情感输入,通过以下方式控制:

# 示例1:使用情感参考音频
tts.infer(
    spk_audio_prompt='examples/voice_07.wav',
    text="酒楼丧尽天良,开始借机竞拍房间",
    emo_audio_prompt="examples/emo_sad.wav",  # 悲伤情感参考
    emo_alpha=0.9,
    output_path="sad_gen.wav"
)

# 示例2:使用情感向量
tts.infer(
    spk_audio_prompt='examples/voice_10.wav',
    text="哇塞!这个爆率也太高了!",
    emo_vector=[0, 0, 0, 0, 0, 0, 0.45, 0],  # 惊讶情感
    output_path="surprised_gen.wav"
)

3. 零样本语音克隆

无需训练,仅通过5-15秒参考音频即可克隆说话人音色,支持:

  • 语音清晰度保持(背景噪音<30dB时)
  • 跨语言克隆(如用中文语音合成英文)
  • 语速自适应(±30%范围内)

使用限制与约束

1. 输入限制

输入类型限制条件
参考音频长度5-15秒(超过自动截断),采样率≥16kHz
文本输入单句≤200字,批量处理需分段(默认120字/段)
情感向量各维度值范围[0,1],总和建议≤1.5

2. 性能瓶颈

  • 长文本合成:超过600字需分段处理,可能导致韵律连贯性下降
  • 极端情感迁移:如从平静到暴怒的跨度转换,可能出现音色失真
  • 低资源环境:CPU模式下速度降低10-15倍,不支持FP16加速

3. 质量退化场景

在以下情况可能出现合成质量下降:

  • 参考音频含混响、回声或强背景噪音(SNR<15dB)
  • 文本包含专业术语、生僻字或混合语种(如"API接口")
  • 情感强度设置过高(emo_alpha>1.0)导致过度渲染

部署与优化建议

推荐配置

  1. 硬件

    • GPU:NVIDIA RTX 4090/A100(≥24GB显存)
    • CPU:≥8核(推荐Intel i7/Ryzen 7)
    • 内存:≥32GB(批量处理时)
  2. 优化参数

# 高效推理配置
tts = IndexTTS2(
    use_fp16=True,          # 启用FP16精度(显存↓50%,速度↑30%)
    use_cuda_kernel=True,   # 启用BigVGAN CUDA内核(速度↑15%)
    use_deepspeed=True      # 启用DeepSpeed推理优化
)

# 长文本处理建议
segments = tokenizer.split_segments(text, max_text_tokens_per_segment=150)  # 增加分段长度
wavs = [tts.infer(...) for segment in segments]  # 批量合成后拼接

常见问题解决

问题现象解决方案
合成音频有卡顿1. 降低batch_size 2. 禁用DeepSpeed 3. 检查CUDA驱动
情感迁移效果不明显1. 提高emo_alpha至0.8-1.0 2. 使用更长情感参考音频
显存溢出1. 启用FP16 2. 降低max_mel_tokens至1500 3. 关闭CUDA内核

引用与致谢

如果使用本模型,请引用以下论文:

@article{zhou2025indextts2,
  title={IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech},
  author={Siyi Zhou, Yiquan Zhou, Yi He, Xun Zhou, Jinchao Wang, Wei Deng, Jingchen Shu},
  journal={arXiv preprint arXiv:2506.21619},
  year={2025}
}

模型开发依赖以下开源项目:

附录:模型架构图

mermaid

:本模型卡片基于IndexTTS2 v2.0版本,随着迭代可能更新。商业使用请联系indexspeech@bilibili.com。

【免费下载链接】index-tts An Industrial-Level Controllable and Efficient Zero-Shot Text-To-Speech System 【免费下载链接】index-tts 项目地址: https://gitcode.com/gh_mirrors/in/index-tts

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值