audio = net_g.infer(x_tst, x_tst_lengths, noise_scale=.667, noise_scale_w=0.6, length_scale=1.2)[0][0,0].
记录一下自己用VITS推理后保存WAV音频文件遇到的一点坑
于 2023-03-17 11:25:58 首次发布
文章讲述了在使用VITS模型进行音频处理后,通过wave库保存音频出现噪声问题,而使用scipy.io.wavfile库则没有问题。问题的关键在于wave库需要整数格式的数据,而原始数据是以浮点数在-1到1之间的形式。通过将音频数据乘以32767并转换为int16类型,解决了wave库保存时的格式不匹配问题。

最低0.47元/天 解锁文章
1664





