开源即用，3 行代码合成自然语音——OuteTTS 本地部署教程，一键接入全场景语音能力

OutsTTS本地部署教程及语音合成演示

原创

于 2025-08-14 17:43:51 发布 · 1k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#OutsTTS #Qwen3 0.6B #语音克隆 #模型部署教程 #算家云 #镜像社区

一、模型介绍

OutsTTS是基于Qwen3 0.6B 构建的基础模型，经过持续的预训练和微调，主要用于克隆和合成语音，由英语、中文、荷兰语、法语、格鲁吉亚语、德语、匈牙利语、意大利语、日语、韩语、拉脱维亚语、波兰语、俄语、西班牙语训练而成，该模型设计用于与发言人参考一起使用。如果没有参考，它会生成随机的语音特征，通常会导致较低质量的输出。

该模型继承了参考发言人的感情、风格和口音。当将同一发言人的语音转换为其他语言时，您可能会发现模型保留了原始口音，比如将英式口音发言人转换成中文时，会带有明显的英式口音。

最佳性能： 在单次运行中生成大约 42 秒 的音频（约 8,192 个标记）。建议不要接近此窗口的极限。通常，最佳结果不超过 7,000 个标记。

使用发言人参考时的上下文减少： 如果发言人参考为 10 秒长，则有效上下文减少到大约 32 秒。

模型快速搭建方法请参考算家云“镜像社区”

二、模型部署步骤

模型部署环境

ubuntu	22.04.4 LTS
cuda	12.4.1
python	3.10
NVIDIA Corporation	RTX4090

1.更新基础的软件包

查看系统版本信息

#查看系统的版本信息，包括ID（如ubuntu、centos等）、版本号、名称、版本号ID等
cat /etc/os-release

最低0.47元/天解锁文章