声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。
欢迎关注微信公众号:低调奋进
Enhancing Monotonicity for Robust Autoregressive Transformer TTS
本文是清华大学在interspeech 2020上发表优化transformerTTS,使其更加鲁棒,具体的文章链接
https://www.isca-speech.org/archive/Interspeech_2020/pdfs/1751.pdf
1 研究背景
基于transformer的tts系统如下图所示,因为transformer缺少对句子时序性的信息,因此常出现漏字,跳字的问题。本文通过把stepwise monotnoic attention应用到transfomer中因此使transformerTTS更加鲁棒,实验结果显示合成的语音质量MOS提高,而且系统更加鲁棒。

2 详细设计
首先看一下multi-head attention的计算公式1~3,其中为了添加位置信息添加position embeddig公式为4~6。而stepwise 的公式为7~10,具体可参考我另一篇文章(

本文探讨了如何通过引入步进单调性注意力机制来优化Transformer TTS系统,解决漏字和跳字问题。实验表明,这种方法提高了合成语音的质量,并增强了系统的鲁棒性。
最低0.47元/天 解锁文章
652

被折叠的 条评论
为什么被折叠?



