Fish Speech 部署教程【最好用的TTS】

最新推荐文章于 2025-12-15 23:44:55 发布

原创最新推荐文章于 2025-12-15 23:44:55 发布 · 1.1k 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#自然语言处理 #人工智能

部署运行你感兴趣的模型镜像

Fish Speech 部署教程

项目介绍

Fish Speech 是一个开源的 SOTA（State-of-the-Art）文本转语音（TTS）系统,由 fishaudio 团队开发。该项目在 TTS-Arena2 排行榜上获得了第一名的成绩，代表了当前开源 TTS 技术的最高水平。

主要特点

1. 卓越的语音质量

在英文文本上实现了 0.008 的 WER（词错误率）和 0.004 的 CER（字符错误率）
在 Seed-TTS Eval 评估中，CER 约为 0.4%，WER 约为 0.8%
在 TTS-Arena2 获得第一名

2. 零样本和少样本语音克隆

只需 10-30 秒的语音样本即可生成高质量的 TTS 输出
无需大量训练数据即可克隆声音

3. 多语言和跨语言支持

支持英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语
只需复制粘贴多语言文本，无需担心语言识别问题
强大的跨语言合成能力

4. 不依赖音素

模型具有强大的泛化能力，不依赖音素进行 TTS
可以处理任何语言脚本的文本

5. 高性能

使用 torch compile 加速
在 Nvidia RTX 4090 GPU 上，实时因子约为 1:7
推理速度快，适合实时应用

6. 丰富的语音控制

支持多种情感标记：愤怒、悲伤、兴奋、惊讶等 20+ 种基础情感
支持高级情感：讽刺、犹豫、尴尬等 25+ 种复杂情感
支持语气标记：低语、喊叫、柔和语气等
支持特殊音效：笑声、哭泣、叹息、喘息等

7. 易于部署

提供基于 Gradio 的 WebUI 界面
原生支持 Linux 和 Windows（macOS 支持即将推出）
可轻松搭建推理服务器

部署过程

前置条件

在开始部署之前，请确保已安装以下工具：

Git：用于克隆项目代码
Conda：用于管理 Python 虚拟环境
NVIDIA 驱动：确保显卡驱动已正确安装
sudo 权限：用于安装系统依赖包

1. 系统要求

支持的系统：

Linux
WSL (Windows Subsystem for Linux)

硬件要求：

GPU 内存：至少 12GB（推理）

2. 克隆项目

首先使用 Git 克隆 Fish Speech 项目到本地：

git clone https://github.com/fishaudio/fish-speech.git
cd fish-speech

3. 下载模型文件

需要手动下载预训练模型文件到项目的 checkpoints/fish-speech-1.5 目录下。

模型下载地址： https://huggingface.co/fishaudio/fish-speech-1.5/tree/main

步骤：

在项目根目录下创建目录结构：
```
mkdir -p checkpoints/fish-speech-1.5
```
访问 Hugging Face 模型仓库，下载所有模型文件
将下载的模型文件放置到 checkpoints/fish-speech-1.5/ 目录下

目录结构示例：

fish-speech/
└── checkpoints/
    └── fish-speech-1.5/
        ├── model.pth
        ├── config.json
        └── [其他模型文件]

4. 安装系统依赖

安装用于音频处理的系统依赖项：

sudo apt install portaudio19-dev libsox-dev ffmpeg

5. 配置 Python 环境

使用 Conda 创建并激活 Python 虚拟环境：

# 创建 Python 3.12 环境
conda create -n fish-speech python=3.12

# 激活环境
conda activate fish-speech

6. 安装 UV 包管理器

在虚拟环境中安装 UV：

pip3 install uv

7. 安装项目依赖

使用 UV 安装项目依赖（根据 GPU 版本选择对应的 CUDA 版本）：

# GPU 安装 (选择您的 CUDA 版本: cu126, cu128, cu129)
uv sync --python 3.12 --extra cu129

注意： 安装 CUDA 之前需要查看自己的显卡版本支持哪个 CUDA 版本。

查看显卡支持的 CUDA 版本：
nvidia-smi
查看输出中的 “CUDA Version” 字段，选择对应或更低的 CUDA 版本进行安装。

8. 启动 Web UI 界面

完成安装后，可以使用以下命令启动 Web 界面：

uv run python -m tools.run_webui

启动成功后，Web UI 默认会在 http://127.0.0.1:7860 上运行。在浏览器中访问该地址即可使用 Fish Speech 的 Web UI 界面。

9. 启动 API 服务器（可选）

如果需要在其他项目中集成 Fish Speech 的 API，可以启动 API 服务器：

uv run python -m tools.api_server --listen 0.0.0.0:2000

访问 API 文档：

启动后，在浏览器中访问 http://127.0.0.1:2000 即可查看 API 接口文档。

通过 API 服务器，你可以在其他应用程序中调用 Fish Speech 的文本转语音功能。

您可能感兴趣的与本文相关的镜像

HunyuanVideo-Foley

语音合成

HunyuanVideo-Foley是由腾讯混元2025年8月28日宣布开源端到端视频音效生成模型，用户只需输入视频和文字，就能为视频匹配电影级音效