语音合成（TTS)论文优选：Cross-lingual Multispeaker Text-to-Speech under Limited-Data Scenario

最新推荐文章于 2022-07-15 19:48:55 发布

原创最新推荐文章于 2022-07-15 19:48:55 发布 · 690 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#语音识别 #人工智能 #深度学习 #机器学习 #tts

语音合成论文专栏收录该内容

104 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

声明：语音合成（TTS)论文优选系列主要分享论文，分享论文不做直接翻译，所写的内容主要是我对论文内容的概括和个人看法。如有转载，请标注来源。欢迎关注微信公众号：低调奋进

Cross-lingual Multispeaker Text-to-Speech under Limited-Data Scenario

本篇文章是做TTS 语言交叉转换的方向，是杜克大学发表的文章，更新2020.05.21.具体的文章链接http://yqli.tech/pdf/tts_paper/2020%20Cross%20lingual%20Multispeaker%20Text%20to%20Speech%20under%20Limited%20Data%20Scenario.pdf

1 研究背景

国际化的发展，造成多种语言的交叉使用，这对TTS提出了一种挑战：模型不仅需要支持多种语言，还要支持语言之间的切换自然。然而，大部分企业手中拥有不同说话人不同语言的语料，要想获取同一说话人不同语言的语料需要花费昂贵的成本。本文章设计了支持多说人多语言和语言切换的TTS,该TTS只需要手中拥有不同语言的训练语料即可。

2 详细的系统设计

TTS框架进行多语言模型的设计，需要考虑多语言之间的兼容，比如英文和中文的的输入集设计。从事TTS的都知道，目前的输入集设计方案主要包括按照character,phoneme或者bytes等方式进行输入。往年的文章已经做实验证实使用phoneme效果最好。为了支持多语言和语言转换，本文章添加了language tokens序列，该序列跟phoneme seq是一对一关系。当输入时候，language token 和phoneme seq拼接在一起，输入到tacotorn2的encoder部分。另外为支持多发音人还需要还需要拼接speaker 信息，其它的decoder部分没有改变，详细的系统设计如图一：（就我个人的经验来说，还需要添加DAT模块，使其发音人信息和语言信息进行解耦，这样学习的效果更好）

语音合成（TTS)论文优选：Cross-lingual