语音合成论文优选:Effective and Differentiated Use of Control Information for Multi-speaker Speech Synthesis

声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。

欢迎关注微信公众号:低调奋进


Effective and Differentiated Use of Control Information for Multi-speaker Speech Synthesis

本文为小米在2021.07.07更新的文章,主要在multispeaker model和speaker adaptation上做了工作,使adap效果提高,具体的文章链接

https://arxiv.org/pdf/2107.03065.pdf


1 研究背景

研究人员对于语音合成的控制信息在tts系统中扮演的角色关注较少,比如speaker embedding,pitch和enery。本文使用这些信息在tacotron系统结构上进行修改,引入Excitation spectrogram模块,从而使合成质量更好。

2 详细设计

整体的系统在tacotron架构上进行修改,具体如图1所示。(乍一看还以为fastspeech)。具体的第一个贡献点是使用enery和pitch信息来生成一种excitation spectrogram信息,该模块的设计根据为source-filter模型,即声音谐波结构,具体的设计为公式3,4,5。另外一个贡献点是设计了CGLSTM(Conditional Gated LSTM)即把speaker embedding信息添加进lstm结构中,具体如图2和公式6,7,8所示。

3 实验

本文实验没有对比第三方的平台系统,感觉实验偏少。下边baseline是不使用CGLSTM和excitation spectrogram generator。图3是各种系统的loss情况,system-3的loss低,同时参数量也较小,如table1。table2显示mos system3最好。

4 总结

本文在tacotron基础上设计excitation spectrogram generator和CGLSTM,从而使speaker adaptation效果更好。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我叫永强

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值