
rvc的过程其实比较简单,可以看看别人流式处理的代码
主要流程就是decode - process - encode
先用hubert得到语音内容特征,然后读取对音色文件和音高信息进行提取,最后用合成器将音色文件、音高信息、语音内容特征三者加入合成器,就可以得到合成音频
rvc算法调优三座大山:
-
音高提取算法
如果有足够大的内存,rvc的选择是rmvpe算法,这个算法快,而且迅速,完全符合流式处理的要求,但是内存占用太大了,pass,最后选择了dio算法,做了个简单的改良,安装上去效果还不错 -
index 融合算法
原有的rvc中,index加权融合有点僵硬,需要重新设计了一个index融合算法 -
共振峰偏移
原来rvc中的共振峰偏移做的比较简单,需要后续做了一些优化
完成了这部分,如果效果还不满意,可以试着看看合成器部分
移植到C++上,主要靠ONNX,目前测试效果还不错,之后可能考虑替代公司所使用的AI变音功能


1万+

被折叠的 条评论
为什么被折叠?



