前言
OpenVoice是一种多功能的即时声音克隆方法,它只需要参考发言者的一小段音频片段,就可以复制他们的声音并用多种语言生成语音。更多介绍详见博文【Python趋势榜-OpenVoice】,官方仓库地址【https://github.com/myshell-ai/OpenVoice】
简单的说,OpenVoice可以克隆语音,只需要一段几十秒的录音就可以得到很不错的模仿效果。甚至男声转女声的效果也很不错,这就有很大的想象空间。目前官方的做法是通过算法学习录音文件的音色和发音习惯,然后将文本通过TTS转为语音,再用学习到的音色特征转换语音得到最终音频文件,其中还可以对生成的文件加入特殊水印从而保证不被滥用。
部署
准备环境
本项目运行在python3.9,可以到python官网下载对应的版本【python-3.9.10-amd64.exe】,也可以使用conda创建。自行安装的记得切换环境变量,最好是CMD中尝试一下是否正常运行在3.9之上。
克隆项目
克隆就不再赘述了,程序员的基本技能【https://github.com/myshell-ai/OpenVoice】。
git clone https://github.com/myshell-ai/OpenVoice.git
由于官方在2024-2-14日改变了目录层级【refactor!: Converts Project into a Python Compatible Package】,本文的代码无法直接使用,建议拉取之前的历史代码测试。也可以修改本文调用的代码测试,难度不大。
安装库
安装官方requirements.txt中所要求的支持库。
pip install -r requirements.txt

文章介绍了OpenVoice,一种能通过少量音频样本克隆声音的Python技术,涉及模型部署、环境准备、安装库、模型下载和运行示例。还提到了TTS和音频转换的过程,以及在中国遇到的网络限制问题及其解决方案。
最低0.47元/天 解锁文章
1469

被折叠的 条评论
为什么被折叠?



