IndexTTS2安装说明

部署运行你感兴趣的模型镜像

2025年9月25日哔哩哔哩发布的IndexTTS2版本简介说明是首个具备精确合成时长控制能力的自回归TTS模型,同时支持可控与不可控两种模式。该功能在本次版本中暂未开放。模型实现了高表现力的情感语音合成,通过多输入模态支持情感可控功能。代码库:https://github.com/index-tts/index-tts
实测角色音色模拟的真的挺好。

文档里面有具体的安装步骤,如果在linux上可能出现的问题是cuda与驱动的安装是否缺少。

  1. 安装git lfs 这个安装或者不安装都可以,我觉得不重要,主要是下载一些音频示例文件,手动一样可以下载。
git lfs install
  1. 下载git 库文件
git clone https://github.com/index-tts/index-tts.git && cd index-tts

下载库里音频示例文件

git lfs pull 
  1. 安装uv 包管理工具,基本比较简单,附个文章协助安装
https://zhuanlan.zhihu.com/p/689976933
  1. 安装相关依赖包,推荐指定国内源
uv sync --all-extras --default-index "https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple"
  1. 下载模型文件有两种方式
    1) huggingface 下载
uv tool install "huggingface_hub[cli]"

hf download IndexTeam/IndexTTS-2 --local-dir=checkpoints

2) 通过魔搭下载,这个更加推荐

uv tool install "modelscope"

modelscope download --model IndexTeam/IndexTTS-2 --local_dir checkpoints
运行代码时候会通过huggingface额外下载一些语义模型、分词模型,所以要使用代理
export HF_ENDPOINT="https://hf-mirror.com"
  1. 检查运行模型芯片
uv run webui.py
  1. 运行模型页面
uv run python webui.py -h

在运行7步骤时候报错,可能是因为安装nvcc、cuda。cuda可以通过‘nvidia-smi’ 指令查看cuda版本和驱动。通过’nvcc --vision‘检查cuda toolkit,如果没有到网站寻找对应版本下载
https://developer.nvidia.com/cuda-toolkit-archive。主要留意本地的nvidia-smi显示的版本,下载的能低于本地版本合适。
我是用的是runfile文件下载后本地安装
在这里插入图片描述
安装第一次失败,后面修改安装指令,附带安装驱动和toolkit

sudo sh cuda_13.0.1_580.82.07_linux.run --driver --toolkit

您可能感兴趣的与本文相关的镜像

PyTorch 2.5

PyTorch 2.5

PyTorch
Cuda

PyTorch 是一个开源的 Python 机器学习库,基于 Torch 库,底层由 C++ 实现,应用于人工智能领域,如计算机视觉和自然语言处理

IndexTTS2是哔哩哔哩推出的开源语音生成大模型,于2025年9月25日发布,是首个具备精确合成时长控制能力的自回归TTS模型,同时支持可控与不可控两种模式,但该功能在本次版本中暂未开放。相比于早期版本的IndexTTSIndexTTS2在情感表达的细腻度与时长控制的精准性方面有了很大的提升,实现了高表现力的情感语音合成,通过多输入模态支持情感可控功能,实测角色音色模拟效果较好 [^1][^4]。 ### 功能 - **多模态情感控制**:支持情感参考音频(通过emo_audio_prompt输入,权重由emo_alpha(0.0 - 1.0)调节)、情感向量(8维向量[happy, angry, sad, afraid, disgusted, melancholic, surprised, calm])、文本情感描述(通过Qwen - 0.6B模型将文本转换为情感向量,支持use_emo_text开关) [^5]。 - **时长控制**:具备精确合成时长控制能力,但此功能在当前版本暂未开放 [^4]。 ### 使用方法相关 #### 本地部署 可参考相关教程进行本地部署,首先需要下载源码 [^1]。 #### 项目目录结构 IndexTTS项目的目录结构如下: ```plaintext index-tts/ ├── assets/ # 存放项目相关的资源文件 ├── checkpoints/ # 存放预训练模型和权重文件 ├── indextts/ # 包含项目的核心代码 │ ├── infer/ # 包含推理相关的代码 │ └── models/ # 包含模型定义和相关的类 ├── tools/ # 包含项目所需的工具脚本 ├── i18n/ # 国际化相关文件 ├── .gitignore # 指定git忽略的文件 ├── DISCLAIMER # 法律声明文件 ├── INDEX_MODEL_LICENSE # 模型使用许可文件 ├── LICENSE # 项目许可证文件 ├── README.md # 项目说明文件 ├── requirements.txt # 项目依赖文件 └── webui.py # 项目web界面启动文件 ``` #### 配置文件 可通过理解IndexTTS2配置文件的整体结构和各模块功能,掌握关键参数的调优方法和最佳实践,解决常见的合成质量问题,如语音卡顿、情感失真等,还能根据特定场景需求定制化配置参数 [^2]。 ### 性能指标 |评估类别|指标|数值范围|说明| | ---- | ---- | ---- | ---- | |合成质量|MOS评分|4.2 - 4.6/5.0|语音自然度(主观评分)| |合成质量|说话人相似度|85% - 92%|与参考音频的相似度(余弦相似度)| |合成质量|情感识别准确率|82% - 88%|情感迁移准确率(8分类任务)| |合成质量|词错误率(WER)|< 5%|语音识别文本与输入文本的匹配度| |效率指标(NVIDIA A100环境)|单句合成速度|0.8 - 1.2x实时(10秒文本≈8 - 12秒)| - | |效率指标(NVIDIA A100环境)|批量处理能力|16句/批次(200字/句)| - | |效率指标(NVIDIA A100环境)|显存占用|16GB(FP16模式,单实例)| - | |效率指标(NVIDIA A100环境)|模型加载时间|45 - 60秒| - | [^5]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值