OuteTTS 模型

部署运行你感兴趣的模型镜像

OuteTTS 发布新的版本,0.2 版本使用了 Qwen-2.5-0.5B 作为基础模型进行训练,OuteTTS 使用了 WavTokenizer,并将文字 Token 与 语音 Token 做了一对一的对应。TTS 也支持自定义读音。

OuteTTS 文字转音频

#安装依赖
pip install outetts

import outetts

# Configure the model
model_config = outetts.HFModelConfig_v1(
    model_path="OuteAI/OuteTTS-0.2-500M",
    language="zh",  # Supported languages in v0.2: en, zh, ja, ko
)

# Initialize the interface
interface = outetts.InterfaceHF(model_version="0.2", cfg=model_config)

# 以下代码为自定义读音代码,更改对应路径即可
# Optional: Create a speaker profile (use a 10-15 second audio clip)
# speaker = interface.create_speaker(
#     audio_path="path/to/audio/file",
#     transcript="Transcription of the audio file."
# )

# Optional: Save and load speaker profiles
# interface.save_speaker(speaker, "speaker.json")
# speaker = interface.load_speaker("speaker.json")

# Optional: Load speaker from default presets
interface.print_default_speakers()
speaker = interface.load_default_speaker(name="female_1")

output = interface.generate(
    text="""黄花又名忘忧草,既能食用,也能药用。""",
    # Lower temperature values may result in a more stable tone,
    # while higher values can introduce varied and expressive speech
    temperature=0.1,
    repetition_penalty=1.1,
    max_length=4096,

    # Optional: Use a speaker profile for consistent voice characteristics
    # Without a speaker profile, the model will generate a voice with random characteristics
    speaker=speaker,
)

# Save the synthesized speech to a file
output.save("output.wav")

# Optional: Play the synthesized speech
# output.play()

总结

OuteTTS 中文效果不如 F5-TTS,英文效果还是不错的,读数字也不是很好,需要先转换一下,OuteTTS 最大长度 4096, 更长的文字需要自己进行切分。

您可能感兴趣的与本文相关的镜像

Yolo-v5

Yolo-v5

Yolo

YOLO(You Only Look Once)是一种流行的物体检测和图像分割模型,由华盛顿大学的Joseph Redmon 和Ali Farhadi 开发。 YOLO 于2015 年推出,因其高速和高精度而广受欢迎

<think>好的,我现在需要帮助用户找到一个可以克隆中文语音的开源项目以及本地部署方案。首先,用户提到了两个参考引用,Fish Speech和OuteTTS,我需要仔细看一下这两个项目的描述。 根据引用[1],Fish Speech是一个高质量的语音合成项目,结合了多种先进技术,可能支持中文。而引用[2]中的OuteTTS明确提到支持语音克隆和中文,适用于多种场景,这可能更符合用户的需求。接下来,我需要确认这两个项目是否都支持中文语音克隆,并查看它们的文档或社区讨论是否提到本地部署的步骤。 首先,OuteTTS的项目描述中明确列出了支持语音克隆和中文,所以这应该是合适的。Fish Speech虽然提到高质量合成,但需要进一步确认是否支持中文和克隆功能。可能需要查看它们的GitHub仓库或文档。 然后,关于本地部署方案,通常开源项目会有详细的安装指南。例如,OuteTTS可能依赖Python环境、PyTorch框架,以及其他库如FFmpeg。需要列出这些依赖,并说明如何配置。此外,模型下载和权限设置也是关键步骤,特别是中文语音模型可能需要额外的下载链接。 用户可能还需要了解硬件要求,比如GPU加速对训练和推理的帮助。因此,在回答中应该提到推荐使用NVIDIA GPU并安装CUDA驱动。 最后,生成相关问题时要围绕用户的需求,比如如何优化克隆效果、比较不同项目、处理法律问题等。确保问题有针对性,帮助用户进一步探索。</think>### 开源中文语音克隆与本地部署方案 #### 1. **推荐开源项目** ##### (1) **OuteTTS** - **核心功能**:支持中文语音克隆、文本到语音合成、音频标记化等,基于纯语言建模方法,适合本地部署[^2]。 - **特点**: - 提供结构化提示创建和CTC强制对齐技术,提升语音自然度。 - 支持从少量样本中克隆语音,适用于有声读物、客服等场景。 - **代码示例**(安装依赖): ```bash # 克隆仓库 git clone https://github.com/oute-tts/oute-tts.git # 安装Python依赖 pip install -r requirements.txt ``` ##### (2) **Fish Speech** - **核心功能**:融合多源技术的语音合成平台,支持高质量语音生成,可通过调整模型适配中文语音克隆[^1]。 - **特点**: - 支持多语言扩展,社区活跃,提供预训练模型- 需自行调整数据集和训练参数以优化中文克隆效果。 --- #### 2. **本地部署步骤** ##### 环境准备 - **硬件要求**:推荐NVIDIA GPU(显存≥8GB)并安装CUDA驱动。 - **依赖安装**: ```bash # 示例:OuteTTS的典型依赖 conda create -n outetts python=3.9 conda activate outetts pip install torch==2.0.1+cu118 torchaudio==2.0.2 --extra-index-url https://download.pytorch.org/whl/cu118 pip install ffmpeg-python transformers ``` ##### 模型配置 1. **下载预训练模型**: - OuteTTS中文模型:从Hugging Face Hub或项目文档提供的链接获取。 2. **权限设置**:确保模型文件路径正确,避免权限错误。 ##### 运行示例(OuteTTS) ```python from outetts import TextToSpeech # 初始化模型 tts = TextToSpeech(model_path="path/to/chinese_model") # 输入文本和参考音频路径 text = "欢迎使用中文语音克隆系统。" reference_audio = "reference.wav" # 生成克隆语音 output_audio = tts.generate(text, reference_audio) output_audio.save("output.wav") ``` --- #### 3. **注意事项** - **法律合规**:克隆他人语音前需获得授权,避免侵权。 - **数据质量**:训练/参考音频需清晰且无背景噪声。 - **性能调优**:若推理速度慢,可尝试量化模型或启用半精度计算。 ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值