语音合成论文优选:Expressive Neural Voice Cloning

声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。

欢迎关注微信公众号:低调奋进

Expressive Neural Voice Cloning

本文是加州大学圣地亚哥分校在2021.01.30更新的文章,主要工作做语音复刻和个性化,但本文主要添加情感的迁移,具体的文章链接

https://arxiv.org/pdf/2102.00151.pdf

(文章看着挺长,洋洋洒洒12页,但其实很简单)

1 研究背景

现在的语音合成系统可以通过使用GST来进行情感控制,但原始的tacotron2+GST来进行一句话复刻或者个性化定制的效果并不理想,因此本文的目标是在一句话复刻系统上进行风格的迁移控制。

2 详细设计

本文的系统架构如下图所示,系统的输入条件包括四个部分:text, speaker embedding, GST和Pitch contour,其中speaker encoder是用来学习说话人特征信息,encoder是进行语言特征进行编码表征,GST是学习音频的隐含特征,Pitch Contour是学习音频的基频轮廓。本文主要使用GST和Pitch Contour进行情感的迁移学习。
 

3 实验

本文实验先验证合成音频与原始音频相似性,其结果如图2所示:使用本文提出的方案比原始的taoctron2+GST效果较好,使用少量训练语料进行自适应比zero-shot较好,自适应方案更新整个模型比只更新decoder效果较好。table1和table2对比风格迁移的一些准则和MOS值,结果和以上一致。

4 总结

本文主要在一句话或者少数量数据的语音合成系统上进行情感的迁移优化,使系统不仅仅复刻音色,也可以进行风格迁移。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我叫永强

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值