一、模型介绍
OutsTTS是基于Qwen3 0.6B 构建的基础模型,经过持续的预训练和微调,主要用于克隆和合成语音,由英语、中文、荷兰语、法语、格鲁吉亚语、德语、匈牙利语、意大利语、日语、韩语、拉脱维亚语、波兰语、俄语、西班牙语训练而成,该模型设计用于与发言人参考一起使用。如果没有参考,它会生成随机的语音特征,通常会导致较低质量的输出。
该模型继承了参考发言人的感情、风格和口音。 当将同一发言人的语音转换为其他语言时,您可能会发现模型保留了原始口音,比如将英式口音发言人转换成中文时,会带有明显的英式口音。
最佳性能: 在单次运行中生成大约 42 秒 的音频(约 8,192 个标记)。建议不要接近此窗口的极限。通常,最佳结果不超过 7,000 个标记。
使用发言人参考时的上下文减少: 如果发言人参考为 10 秒长,则有效上下文减少到大约 32 秒。
模型快速搭建方法请参考算家云“镜像社区”
二、模型部署步骤
模型部署环境
| ubuntu | 22.04.4 LTS |
|---|---|
| cuda | 12.4.1 |
| python | 3.10 |
| NVIDIA Corporation | RTX4090 |
1.更新基础的软件包
查看系统版本信息
#查看系统的版本信息,包括ID(如ubuntu、centos等)、版本号、名称、版本号ID等
cat /etc/os-release
OutsTTS本地部署教程及语音合成演示

最低0.47元/天 解锁文章
736

被折叠的 条评论
为什么被折叠?



