语音合成(TTS)论文优选:pretraining strategies, waveform model choice, and acoustic configurations for multi-s

部署运行你感兴趣的模型镜像

声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。

欢迎关注微信公众号:低调奋进

pretraining strategies, waveform model choice, and acoustic configurations for multi-speaker end-to-end speech synthesis

本文是日本国立情报学研究所在2020.11.10更新的文章,文章也是分享经验为主。该文章主要在预训练策略,声码器选择,采样率大小等因素进行试验,展示其对多说话人模型的影响,具体的文章链接https://arxiv.org/pdf/2011.04839.pdf

1 研究背景

multi-speaker tts需要大量的训练语料,因此pretraining策略对该任务具有重要的意义。本文章就是探索pretraining策略对multi-speaker模型的影响,主要包括预训练语料库的选择,声码器的选择等等。本文章主要使用vctk的数据作为multi-speaker模型训练语料,Nancy, LJSpeech, libriTTS clean-360和libriTTS other-500作为pretraining的语料,具体的各项参数如table 1展示,重点看一下SNR信噪比的大小,展示语料的干净程度。本文章主要对比语音的自然度,可懂度,相似度,错误率等指标进行对比试验。

语音合成(TTS)论文优选:strategiesfortts

2 实验

本文实验选择的音频包括24khz和16khz,声码器为Wavenet和WaveRNN。具体的语料库和训练策略搭配如下图显示,后边试验使用的名称为图中加粗缩写:

语音合成(TTS)论文优选:strategiesfortts

实验结果图1展示了各项实验策略MOS值的大小,从该结果得到如下几个结论:1)对vctk-nancy-wn-16k和vctk-nancy-wn-24k进行对比,得到24k的效果优于16k,因此音频采样率高的合成效果较优;2)WN和WR进行对比,结果wavenet和wavernn的mos差不多,合成音质差不多,但wavernn的复杂度小于wavenet;3)训练策略进行对比 a)warm-starting from nancy vs ljspeech,在训练集seen speaker 的自然度测试,使用nancy结果较好,unseen speaker使用ljspeech较好;b) libritts clean-360 vs other-500,clean的数据360效果较好;c) 最好的模型选取。自然度方面,对于seen speaker 的情况使用vctk直接训练的最好,对unseen speaker使用vctk-liri60-wr-24k最好。相似度方面,unseen speaker 在vctk-libri360-wn-24k和vctk-hj-wr-24k较好。

语音合成(TTS)论文优选:strategiesfortts

然后比较对齐方面,短句子的对齐错误率如table 2显示,vctk最低。长句子对齐错误率如table 3显示,vctk-libri错误率最低,主要因为libri说话人多和词汇量多。

语音合成(TTS)论文优选:strategiesfortts

其次比较合成的相似性,图2展示了vctk-libri360和vctk-lj对比,libri效果较好,主要在于说话者多和词汇量大。table4 显示出对于unseen speaker的相似度,预训练的语料说话者多词汇量大的情况,效果较好。

语音合成(TTS)论文优选:strategiesfortts

语音合成(TTS)论文优选:strategiesfortts

最后一个实验是对比word error,把合成的音频使用ASR进行转换,统计错误率。结果最好的还是直接使用vctk的数据,该结果与对齐实验的结果不一致,主要是发音问题。

语音合成(TTS)论文优选:strategiesfortts

3 总结

本文章主要对预训练语料库、声码器等因素对multi-sepaker模型训练影响的情况进行经验分享,尤其对于做zero-shot和few-shots的实验的同行具有参考价值。

您可能感兴趣的与本文相关的镜像

HunyuanVideo-Foley

HunyuanVideo-Foley

语音合成

HunyuanVideo-Foley是由腾讯混元2025年8月28日宣布开源端到端视频音效生成模型,用户只需输入视频和文字,就能为视频匹配电影级音效

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我叫永强

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值