语音合成论文优选：AdaSpeech 3: Adaptive Text to Speech for Spontaneous Style-优快云博客

声明：语音合成论文优选系列主要分享论文，分享论文不做直接翻译，所写的内容主要对文章简略概括。如有转载，请标注来源。

欢迎关注微信公众号：低调奋进

AdaSpeech 3: Adaptive Text to Speech for Spontaneous Style

本文为Microsoft Research Asia, China在2021.07.06更新的文章，主要做spontanous-style的adaptive tts，具体的文章链接 https://arxiv.org/pdf/2107.02530.pdf

以前对谭旭的AdaSpeech和AdaSpeech2介绍过，可参考

AdaSpeech 主做个性化工作

https://mp.weixin.qq.com/s?__biz=MzAxNjY3NjQwOQ==&mid=2247484779&idx=1&sn=8bcf8bb31ff77652e39ee64d16fb50ec&chksm=9bf0663dac87ef2b79ceafbf8829f1e2ca1e7e7e7cc1d97c5b8812486069abf815f78e107642&token=1286519892&lang=zh_CN#rd

AdaSpeech 2 在AdaSpeech基础上只使用audio来做个性化工作

https://mp.weixin.qq.com/s?__biz=MzAxNjY3NjQwOQ==&mid=2247485115&idx=1&sn=a16dd1064018efe7683081166c85c0e0&chksm=9bf065edac87ecfb604e40bd3183c5927c24eabcd82a98e55655041ebd6b20fa9ac142b3d312&token=818681779&lang=zh_CN#rd

另外谭旭更新了一篇survey,我本打算写这篇survey，但我不想按文章翻译，所以就没写，大家可以阅读原文

https://arxiv.org/pdf/2106.15561.pdf

1 背景

spontanous-style 语音其主要特点 1）存在大量um,uh等filled pauses(FP) 2）更多样的韵律（语速语调）。虽然tts在阅读风格语音合成效果很好，但对spontanous-style （podcast or conversation)研究很少。另外spontanous-style的数据相比阅读数据可训练的数据较少，因此本文提出adaspeech3 。adaspeech3使用较少的spontanous-style 数据在阅读风格tts上进行自适用，从而合成较高质量的spontanous-style 语音。

2 详细设计

根据spontanous-style 语音的特点，本文在AdaSpeech上添加FP predictor模块，并修改了duration predictor结构为MoE（mixed of expert)，具体如图1所示。为了做spontanous-style 自适应，需要三类数据：SPON-FP, SPON_PHYTHM和SPON-TIMBER。SPON-FP数据的格式为<text, FP>, 本文主要分为三类，0代表没有FP, 1代表uh,2代表um，具体格式为table 1所示，该数据主要用于FP Predictor的训练。SPON_PHYTHM包括pitch,duration和phoneme，该部分主要对duration predictor和pitch predictor进行更新。SPON-TIMBE主要为phoneme和对应的speech,进行音色的更新。这三类数据的数量如table 2所示。