10 万小时训练量！上海交大 F5-TTS：零样本克隆声音，让你的文字秒变逼真语音！

原创已于 2024-10-17 17:55:34 修改

· 4.8k 阅读

27 ·

版权

文章标签：

#人工智能 #TTS #文本生成语音

于 2024-10-16 23:09:50 首次发布

每日 AI 项目与应用实例专栏收录该内容

659 篇文章

订阅专栏

❤️ 如果你也关注大模型与 AI 的发展现状，且对大模型应用开发非常感兴趣，我会快速跟你分享最新的感兴趣的 AI 应用和热点信息，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

微信订阅号｜搜一搜：蚝油菜花

在这里插入图片描述

🚀 快速阅读

F5-TTS 是由上海交通大学开发的强大开源文本到语音合成系统。
支持零样本声音克隆、情感控制、多语言合成等高级功能。
基于流匹配和扩散变换器技术，训练数据高达 10 万小时，性能卓越。

正文（附运行示例）

F5-TTS 是什么

F5-TTS 是由上海交通大学开源的一款高性能文本到语音（TTS）系统。简单来说，它可以把文字转换成自然流畅的语音。这个系统使用了流匹配的非自回归生成方法和扩散变换器（DiT）技术，能够在没有额外数据的情况下，通过零样本学习快速生成高质量的语音。F5-TTS 不仅支持中文和英文等多语言合成，还能处理长文本，并且具备情感控制和速度调整功能。它在 10 万小时的大规模数据集上训练，表现出色，广泛应用于有声读物、语音助手、语言学习等领域。

F5-TTS 的主要优势

零样本声音克隆：不需要特定说话人的数据，就能模仿任何人的声音。
速度控制：可以根据需要调整语音的生成速度，实现精确控制。
情感表现控制：可以控制合成语音的情感色彩，让机器语音更有表现力。
长文本合成：支持长文本的连续语音合成，适合朗读长篇内容。
多语言支持：可以处理和生成中文、英文等多种语言的语音。
大规模数据训练：在 10 万小时的数据集上训练，确保模型的泛化能力和语音的自然度。

F5-TTS 的技术原理

在这里插入图片描述

流匹配（Flow Matching）：通过流匹配目标训练模型，将简单的概率分布转换为复杂的概率分布。
扩散变换器（DiT）：作为核心网络，处理序列数据，逐步去除噪声，生成清晰的语音信号。
ConvNeXt V2：改进文本表示，提升语音合成的质量和自然度。
Sway Sampling 策略：在推理时采用非均匀采样，提高模型的性能和效率。
端到端系统设计：简化从文本输入到语音输出的过程，省略了传统的复杂设计。

如何运行 F5-TTS

安装

首先克隆仓库并安装依赖：

git clone https://github.com/SWivid/F5-TTS.git
cd F5-TTS
pip install torch==2.3.0+cu118 --extra-index-url https://download.pytorch.org/whl/cu118
pip install torchaudio==2.3.0+cu118 --extra-index-url https://download.pytorch.org/whl/cu118
pip install -r requirements.txt

准备数据集

提供 Emilia 和 Wenetspeech4TTS 的数据处理脚本：

python scripts/prepare_emilia.py
python scripts/prepare_wenetspeech4tts.py

训练

设置 accelerate 配置并启动训练：

accelerate config
accelerate launch train.py

推理

使用预训练模型进行推理：

python inference-cli.py \
--model "F5-TTS" \
--ref_audio "tests/ref_audio/test_en_1_ref_short.wav" \
--ref_text "Some call me nature, others call me mother nature." \
--gen_text "I don't really care what you call me. I've been a silent spectator, watching species evolve, empires rise and fall. But always remember, I am mighty and enduring. Respect me and I'll nurture you; ignore me and you shall face the consequences."

Gradio 应用

启动 Gradio 应用进行 GUI 推理：

python gradio_app.py

资源

GitHub 仓库：https://github.com/SWivid/F5-TTS
HuggingFace 模型库：https://huggingface.co/SWivid/F5-TTS
arXiv 技术论文：https://arxiv.org/pdf/2410.06885
在线体验 Demo：https://huggingface.co/spaces/mrfakename/E2-F5-TTS

微信订阅号｜搜一搜：蚝油菜花