Fish Speech 部署教程
项目介绍
Fish Speech 是一个开源的 SOTA(State-of-the-Art)文本转语音(TTS)系统,由 fishaudio 团队开发。该项目在 TTS-Arena2 排行榜上获得了第一名的成绩,代表了当前开源 TTS 技术的最高水平。
主要特点
1. 卓越的语音质量
- 在英文文本上实现了 0.008 的 WER(词错误率)和 0.004 的 CER(字符错误率)
- 在 Seed-TTS Eval 评估中,CER 约为 0.4%,WER 约为 0.8%
- 在 TTS-Arena2 获得第一名
2. 零样本和少样本语音克隆
- 只需 10-30 秒的语音样本即可生成高质量的 TTS 输出
- 无需大量训练数据即可克隆声音
3. 多语言和跨语言支持
- 支持英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语
- 只需复制粘贴多语言文本,无需担心语言识别问题
- 强大的跨语言合成能力
4. 不依赖音素
- 模型具有强大的泛化能力,不依赖音素进行 TTS
- 可以处理任何语言脚本的文本
5. 高性能
- 使用 torch compile 加速
- 在 Nvidia RTX 4090 GPU 上,实时因子约为 1:7
- 推理速度快,适合实时应用
6. 丰富的语音控制
- 支持多种情感标记:愤怒、悲伤、兴奋、惊讶等 20+ 种基础情感
- 支持高级情感:讽刺、犹豫、尴尬等 25+ 种复杂情感
- 支持语气标记:低语、喊叫、柔和语气等
- 支持特殊音效:笑声、哭泣、叹息、喘息等
7. 易于部署
- 提供基于 Gradio 的 WebUI 界面
- 原生支持 Linux 和 Windows(macOS 支持即将推出)
- 可轻松搭建推理服务器
部署过程
前置条件
在开始部署之前,请确保已安装以下工具:
- Git:用于克隆项目代码
- Conda:用于管理 Python 虚拟环境
- NVIDIA 驱动:确保显卡驱动已正确安装
- sudo 权限:用于安装系统依赖包
1. 系统要求
支持的系统:
- Linux
- WSL (Windows Subsystem for Linux)
硬件要求:
- GPU 内存:至少 12GB(推理)
2. 克隆项目
首先使用 Git 克隆 Fish Speech 项目到本地:
git clone https://github.com/fishaudio/fish-speech.git
cd fish-speech
3. 下载模型文件
需要手动下载预训练模型文件到项目的 checkpoints/fish-speech-1.5 目录下。
模型下载地址: https://huggingface.co/fishaudio/fish-speech-1.5/tree/main
步骤:
-
在项目根目录下创建目录结构:
mkdir -p checkpoints/fish-speech-1.5 -
访问 Hugging Face 模型仓库,下载所有模型文件
-
将下载的模型文件放置到
checkpoints/fish-speech-1.5/目录下
目录结构示例:
fish-speech/
└── checkpoints/
└── fish-speech-1.5/
├── model.pth
├── config.json
└── [其他模型文件]
4. 安装系统依赖
安装用于音频处理的系统依赖项:
sudo apt install portaudio19-dev libsox-dev ffmpeg
5. 配置 Python 环境
使用 Conda 创建并激活 Python 虚拟环境:
# 创建 Python 3.12 环境
conda create -n fish-speech python=3.12
# 激活环境
conda activate fish-speech
6. 安装 UV 包管理器
在虚拟环境中安装 UV:
pip3 install uv
7. 安装项目依赖
使用 UV 安装项目依赖(根据 GPU 版本选择对应的 CUDA 版本):
# GPU 安装 (选择您的 CUDA 版本: cu126, cu128, cu129)
uv sync --python 3.12 --extra cu129
注意: 安装 CUDA 之前需要查看自己的显卡版本支持哪个 CUDA 版本。
查看显卡支持的 CUDA 版本:
nvidia-smi查看输出中的 “CUDA Version” 字段,选择对应或更低的 CUDA 版本进行安装。
8. 启动 Web UI 界面
完成安装后,可以使用以下命令启动 Web 界面:
uv run python -m tools.run_webui
启动成功后,Web UI 默认会在 http://127.0.0.1:7860 上运行。在浏览器中访问该地址即可使用 Fish Speech 的 Web UI 界面。
9. 启动 API 服务器(可选)
如果需要在其他项目中集成 Fish Speech 的 API,可以启动 API 服务器:
uv run python -m tools.api_server --listen 0.0.0.0:2000
访问 API 文档:
启动后,在浏览器中访问 http://127.0.0.1:2000 即可查看 API 接口文档。
通过 API 服务器,你可以在其他应用程序中调用 Fish Speech 的文本转语音功能。
322

被折叠的 条评论
为什么被折叠?



