Chatterbox TTS 开源项目教程-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00636/article/details/148296794

Chatterbox TTS 开源项目教程

chatterbox Open source TTS model 项目地址: https://gitcode.com/gh_mirrors/chatterbox7/chatterbox

1. 项目介绍

Chatterbox 是由 Resemble AI 开发的首个生产级开源文本到语音（TTS）模型。该模型基于 MIT 许可，已经在与主流闭源系统如 ElevenLabs 的对比中表现出色。Chatterbox 不仅适用于视频、游戏和 AI 代理等内容创作，还支持情感夸张控制功能，使生成的声音更加独特和突出。

2. 项目快速启动

首先，确保您的环境中已经安装了 Python。以下是快速启动 Chatterbox TTS 的步骤：

# 安装 Chatterbox TTS
pip install chatterbox-tts

# 导入必要的库
import torchaudio as ta
from chatterbox.tts import ChatterboxTTS

# 加载模型
model = ChatterboxTTS.from_pretrained(device="cuda")

# 输入文本
text = "你好，这是一个 Chatterbox TTS 的示例。"

# 生成语音
wav = model.generate(text)

# 保存语音文件
ta.save("example.wav", wav, model.sr)

确保在运行上述代码之前，您的环境中已经配置了 CUDA，以便模型可以在 GPU 上运行。

3. 应用案例和最佳实践

文本到语音转换

使用默认设置时，Chatterbox TTS 可以生成自然的语音。以下是一个简单示例：

text = "这是一个文本到语音转换的示例。"
wav = model.generate(text)
ta.save("text_to_speech_example.wav", wav, model.sr)

情感夸张控制

Chatterbox TTS 支持情感夸张控制，通过调整 exaggeration 参数可以实现不同的情感效果：

text = "我非常开心！"
wav = model.generate(text, exaggeration=0.7)
ta.save("emotional_exaggeration_example.wav", wav, model.sr)

语音转换

Chatterbox TTS 还支持语音转换功能，可以将文本转换为指定音频提示的语音风格：

text = "这是一个语音转换的示例。"
audio_prompt_path = "path_to_audio_prompt.wav"
wav = model.generate(text, audio_prompt_path=audio_prompt_path)
ta.save("voice_conversion_example.wav", wav, model.sr)