声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。
欢迎关注微信公众号:低调奋进
DenoiSpeech: Denoising Text to Speech with Frame-Level Noise Modeling
本篇文章是浙江大学,亚洲微软在2020.12.18更新的文章,主要做少数据量带噪数据进行高质量合成的研究,本文主要思想是对帧级别的噪声进行学习,学习粒度更小,结果更好,具体的文章链接
https://arxiv.org/pdf/2012.09547.pdf (这种的研究最主要的应用还是20多句话的个性化定制)
1 背景
虽然现在的语音合成系统可以合成高质量的音频,但对训练的数据质量有极高的要求和较高的成本,因此使用大量的带噪数据进行语音合成引起产业界和工业界的关注,尤其是手机录制20句话的个性化定制。目前,对于带噪数据的训练主要包含两种方案:1)使用去噪算法进行去噪,这种方法也会造成语音信号的损伤;2)添加noise embedding来标注noise类型,但该种方法是句子级别。本文提出了帧级别的noise标注,使用带噪数据能够获取较干净的语音合成。
2 详细设计
本文提出的系统为DenoiSpeech,如图1的(a)所示。首先,音素先输入到phoneme encoder中,然后输入到length regulator,该模块把音素级别特征扩展到帧级别。接下来,输出的特征进行noise 提取,具体的结构如(b)(c)(d)所示,为了更好获取noise表征,添加了aversarial CTC模块。最后进行mel特征的生成。该算法的训练和推理的流程如算法1所示,训练的时候先训练noise模块,然后再和TTS联合训