IndexTTS入门教程：哔哩哔哩开源的情感语音合成大模型

转载于 2025-12-11 10:07:53 发布 · 123 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：https://ai225.com/article/index-tts-introduction

文章标签：

#人工智能 #开源 #语音合成

AI项目专栏收录该内容

16 篇文章

订阅专栏

本文基于AI225导航的原文进行简化改写，如需了解更多详细信息，请访问原文章。

什么是IndexTTS？

IndexTTS是由哔哩哔哩（Bilibili）团队开发并开源的一款工业级文本转语音（TTS）大模型，代表了当前语音合成领域的最先进技术。该项目在GitHub上已获得广泛关注，成为AI语音合成领域备受瞩目的开源项目。

项目GitHub地址：https://github.com/index-tts/index-tts

IndexTTS项目包含三个主要版本：

IndexTTS-1.0：初始版本，专注于高质量的语音合成和零样本语音克隆
IndexTTS-1.5：改进版本，显著提升模型稳定性及英文表现
IndexTTS-2：最新版本，新增了精确时长控制和情感解耦控制等创新功能

IndexTTS基于自回归架构，在长达6万小时的语音数据上进行了训练，使其在语音自然度和表现力方面达到业界领先水平。

核心技术特点

1. 零样本语音克隆

IndexTTS最引人注目的功能是其零样本语音克隆能力。用户只需提供一个非常短的（例如5-10秒）目标说话人的音频样本，IndexTTS就能学习该说话人的音色和风格，并用这个音色合成任何输入的文本。

这种能力使得：

无需针对特定说话人进行额外训练
支持跨语种语音克隆（如用中文音色合成英文语音）
保持高度自然的语音表现力

2. 精确时长控制

IndexTTS-2是首个支持精确时长控制的自回归TTS模型，解决了传统自回归模型难以精确控制语音时长的难题。注意：精确时长控制功能在本版本中暂未开放。

该功能特别适合：

视频配音等需要严格音画同步的应用场景
广播电台等有时间限制的内容制作
多媒体内容创作中的精确时间控制

3. 情感表达与解耦控制

IndexTTS-2实现了情感特征与说话人音色的解耦（Emotion-Speaker Disentanglement），使用户能够：

独立控制音色和情感
用一段音频保留音色，再用另一段不同情感的音频或文本描述赋予情绪
在零样本条件下，精准还原目标音色并完全重现指定情绪

情感控制支持多种方式：

情感参考音频：通过提供情感参考音频来控制合成语音的情感
情感向量：直接指定8维情感向量 [高兴, 愤怒, 悲伤, 害怕, 厌恶, 忧郁, 惊讶, 平静]，每个维度数值范围为0.0-1.0
文本情感描述：通过自然语言描述来控制情感，降低使用门槛

4. 高自然度和清晰度

IndexTTS经过数万小时语音数据的训练，能够生成：

高度自然、清晰且富有表现力的语音
在客观和主观评估中都显示出超越许多其他开源TTS系统的性能
支持通过标点符号精确控制停顿位置
支持使用拼音纠正中文字符的发音

应用场景

1. 内容创作

视频配音：精确控制语音时长，实现完美的音画同步
有声读物：根据文本内容自动调整情感表达，增强听众体验
播客制作：快速生成高质量语音内容，支持多种情感风格

2. 虚拟助手与数字人

虚拟主播：创建具有特定音色和情感表达能力的虚拟主播
数字分身：为公众人物或普通用户创建数字语音分身
游戏角色：为游戏角色赋予独特的声音和情感表达能力

3. 无障碍应用

语音辅助：为视障人士提供更自然的语音反馈
语言学习：提供标准发音和多种情感表达的语音示例
交流辅助：帮助语言障碍者表达情感和意图

4. 商业应用

客服系统：提供更自然、更富情感的客户服务语音
广告配音：根据产品特性和目标受众调整语音风格
品牌声音：创建独特的品牌声音标识

快速上手指南

环境配置

安装依赖：

git clone https://github.com/index-tts/index-tts.git && cd index-tts
git lfs install
git lfs pull
pip install -U uv
uv sync --all-extras

重要警告：IndexTTS项目只支持uv安装方法。使用其他工具（如conda或pip）可能会导致随机错误、缺少GPU加速等各种问题。

下载模型：

通过HuggingFace下载：

uv tool install "huggingface_hub[cli]"
hf download IndexTeam/IndexTTS-2 --local-dir=checkpoints

通过ModelScope下载（国内用户推荐）：

uv tool install modelscope
modelscope download --model IndexTeam/IndexTTS-2 --local_dir checkpoints

基本使用

1. Web界面

uv run webui.py

浏览器访问 http://127.0.0.1:7860 即可使用图形界面进行语音合成。

您还可以通过以下命令查看所有可用选项：

uv run webui.py -h

2. Python脚本调用

重要提示：运行脚本时，必须使用uv run <file.py>命令确保代码在当前的"uv"环境中运行。

基本语音克隆：

from indextts.infer_v2 import IndexTTS2
tts = IndexTTS2(cfg_path="checkpoints/config.yaml", model_dir="checkpoints", use_fp16=False, use_cuda_kernel=False, use_deepspeed=False)
text = "这是一段测试文本，用于演示IndexTTS的语音克隆功能。"
tts.infer(spk_audio_prompt='examples/voice_01.wav', text=text, output_path="gen.wav", verbose=True)

带情感控制的语音合成：

from indextts.infer_v2 import IndexTTS2
tts = IndexTTS2(cfg_path="checkpoints/config.yaml", model_dir="checkpoints", use_fp16=False, use_cuda_kernel=False, use_deepspeed=False)
text = "今天天气真好，我们一起去公园玩吧！"
tts.infer(spk_audio_prompt='examples/voice_07.wav', text=text, output_path="gen.wav", emo_audio_prompt="examples/emo_happy.wav", verbose=True)

使用文本情感描述：

from indextts.infer_v2 import IndexTTS2
tts = IndexTTS2(cfg_path="checkpoints/config.yaml", model_dir="checkpoints", use_fp16=False, use_cuda_kernel=False, use_deepspeed=False)
text = "快躲起来！是他要来了！他要来抓我们了！"
emo_text = "你吓死我了！你是鬼吗？"
tts.infer(spk_audio_prompt='examples/voice_12.wav', text=text, output_path="gen.wav", emo_alpha=0.6, use_emo_text=True, emo_text=emo_text, use_random=False, verbose=True)

情感向量控制：

from indextts.infer_v2 import IndexTTS2
tts = IndexTTS2(cfg_path="checkpoints/config.yaml", model_dir="checkpoints", use_fp16=False, use_cuda_kernel=False, use_deepspeed=False)
text = "哇塞！这个爆率也太高了！欧皇附体了！"
# 情感向量：[happy, angry, sad, afraid, disgusted, melancholic, surprised, calm]
# 数值范围：0.0-1.0
tts.infer(spk_audio_prompt='examples/voice_10.wav', text=text, output_path="gen.wav", emo_vector=[0, 0, 0, 0, 0, 0, 0.45, 0], use_random=False, verbose=True)