零样本极速复刻语音！F5-TTS本地部署教程

原创于 2025-01-13 14:08:26 发布 · 3.3k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#F5-TTS #模型构建 #算家云 #语音克隆 #人工智能 #AIGC #应用社区

模型构建专栏收录该内容

243 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

一、介绍

F5-TTS 是由上海交通大学、剑桥大学和吉利汽车研究院（宁波）有限公司于 2024 年共同开源的一款高性能文本到语音 (TTS) 系统，它基于流匹配的非自回归生成方法，结合了扩散变换器 (DiT) 技术。。这一系统能够在没有额外监督的情况下，通过零样本学习快速生成自然、流畅且忠实于原文的语音。 F5-TTS 支持多语言合成，包括中文和英文，且能在长文本上进行有效的语音合成。此外，F5-TTS 还具备情感控制功能，能根据文本内容调整合成语音的情感表现，并支持速度控制，允许用户根据需要调整语音的播放速度。系统在 10 万小时的大规模数据集上进行训练，展现出了卓越的性能和泛化能力。 F5-TTS 的主要功能包括零样本声音克隆、速度控制、情感表现控制、长文本合成以及多语言支持。它的技术原理涉及到流匹配、扩散变换器 (DiT) 、 ConvNeXt V2 文本表示改进、 Sway Sampling 策略以及端到端的系统设计。 F5-TTS 的应用场景广泛，包括有声读物、语音助手、语言学习、新闻播报、游戏配音等，为各种商业和非商业用途提供强大的语音合成能力。

二、部署流程

环境推荐配置

系统：Ubuntu22.04，

显卡：4090，

显存：24G，cuda11.8

1. 基础环境

查看系统是否有Miniconda3的虚拟环境

conda -V

如果输入命令没有显示Conda版本号，则需要安装。

屏幕截图

2.更新系统命令

输入下列命令将系统更新及系统下载

apt-get update && apt-get install ffmpeg libsm6 libxext6  -y

微信截图_20240820152809.png

3.创建虚拟环境

创建名称为“f5-tts”的虚拟环境

conda create -n f5-tts python=3.10 -y

微信截图_20241202083423.png

激活“f5-tts"虚拟环境

conda activate f5-tts

微信截图_20241202083454.png

4.下载Pytorch

输入下列命令：

pip install torch==2.3.0+cu118 torchaudio==2.3.0+cu118 --extra-index-url https://download.pytorch.org/whl/cu118

微信截图_20241202090257.png

耐心等待，直到出现以“Successfully”开头的提示，则下载结束：

微信截图_20241202090907.png

4.下载模型

输入下列命令下载F5-TTS模型同时进入项目中

git clone https://github.com/SWivid/F5-TTS.git;cd F5-TTS

微信截图_20241202090932.png

5.下载模型依赖包

输入下列命令：

pip install -e .

微信截图_20241202090946.png

耐心等待，直到出现以“Successfully”开头的提示，则下载结束：

微信截图_20241202091016.png

三、网页演示

在本地运行 gradio 应用程序，使用下列命令运行项目呈现模型的成功界面

f5-tts_infer-gradio --port 8080 --host 0.0.0.0

微信截图_20241202091935.png

打开网址：

微信截图_20241202092619.png

您可能感兴趣的与本文相关的镜像

PyTorch 2.7

PyTorch

Cuda

PyTorch 是一个开源的 Python 机器学习库，基于 Torch 库，底层由 C++ 实现，应用于人工智能领域，如计算机视觉和自然语言处理