声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。
欢迎关注微信公众号:低调奋进
End-to-End Code-Switching TTS with Cross-Lingual Language Model
本文章是新加坡国立大学电气与计算机工程系李海洲老师团队在icassp 2020发表的文章,主要做语言转换TTS工作,具体的文章链接
https://ieeexplore.ieee.org/abstract/document/9054722
1 研究背景
现在的TTS模型不仅需要支持多种语言,还要支持语言之间的切换自然。然而,大部分企业手中拥有不同说话人不同语言的语料,要想获取同一说话人不同语言的语料需要花费昂贵的成本。本文章设计了支持多语言跨语言的TTS,使语言切换更加自然。(研究背景实在不想再阐述了,其实目的只有一个:在缺乏同一个说话人拥有多种语言训练语料前提下,使该说话人的TTS模型支持多语言,而且语言切换更加自然)
2 系统结构
该文章的主要想法其实很简单,我在此先阐述一下本文章的主要想法。本文章提出先使用跨语言语言模型(CLLM)把输入的文本输出词向量(WV),该词向量包含了上下文语境,然后把该向量与encoder输出和音素进行拼接,使输入到decoder的内容包含更多的语言信息,从而提高语音自然度。