语音合成论文优选:AdaSpeech 3: Adaptive Text to Speech for Spontaneous Style

声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要对文章简略概括。如有转载,请标注来源。

欢迎关注微信公众号:低调奋进


AdaSpeech 3: Adaptive Text to Speech for Spontaneous Style

本文为Microsoft Research Asia, China在2021.07.06更新的文章,主要做spontanous-style的adaptive tts,具体的文章链接 https://arxiv.org/pdf/2107.02530.pdf


以前对谭旭的AdaSpeech和AdaSpeech2介绍过,可参考

AdaSpeech  主做个性化工作

https://mp.weixin.qq.com/s?__biz=MzAxNjY3NjQwOQ==&mid=2247484779&idx=1&sn=8bcf8bb31ff77652e39ee64d16fb50ec&chksm=9bf0663dac87ef2b79ceafbf8829f1e2ca1e7e7e7cc1d97c5b8812486069abf815f78e107642&token=1286519892&lang=zh_CN#rd

AdaSpeech 2  在AdaSpeech基础上只使用audio来做个性化工作

https://mp.weixin.qq.com/s?__biz=MzAxNjY3NjQwOQ==&mid=2247485115&idx=1&sn=a16dd1064018efe7683081166c85c0e0&chksm=9bf065edac87ecfb604e40bd3183c5927c24eabcd82a98e55655041ebd6b20fa9ac142b3d312&token=818681779&lang=zh_CN#rd

另外谭旭更新了一篇survey,我本打算写这篇survey,但我不想按文章翻译,所以就没写,大家可以阅读原文

https://arxiv.org/pdf/2106.15561.pdf


1 背景

spontanous-style 语音其主要特点 1)存在大量um,uh等filled pauses(FP) 2)更多样的韵律(语速语调)。虽然tts在阅读风格语音合成效果很好,但对spontanous-style (podcast or conversation)研究很少。另外spontanous-style的数据相比阅读数据可训练的数据较少,因此本文提出adaspeech3 。adaspeech3使用较少的spontanous-style 数据在阅读风格tts上进行自适用,从而合成较高质量的spontanous-style 语音。

2 详细设计

根据spontanous-style 语音的特点,本文在AdaSpeech上添加FP predictor模块,并修改了duration predictor结构为MoE(mixed of expert),具体如图1所示。为了做spontanous-style 自适应,需要三类数据:SPON-FP, SPON_PHYTHM和SPON-TIMBER。SPON-FP数据的格式为<text, FP>, 本文主要分为三类,0代表没有FP, 1代表uh,2代表um,具体格式为table 1所示,该数据主要用于FP Predictor的训练。SPON_PHYTHM包括pitch,duration和phoneme,该部分主要对duration predictor和pitch predictor进行更新。SPON-TIMBE主要为phoneme和对应的speech,进行音色的更新。这三类数据的数量如table 2所示。

3 实验

首先对比一下SMOS,table 3展示本文AdaSpeech 3合成的spontanous-style语音更好,table 4展示本文在各方面的MOS都比AdaSpeech好。table 5验证每个模块作用大小。

4 总结

本文主要对spontanous-style的语音合成进行研究,可以使用较少数据合成较高质量的spontanous-style语音。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我叫永强

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值