语音合成(TTS)论文优选:End-to-End Code-Switching TTS with Cross-Lingual Language  Model

该论文介绍了新加坡国立大学团队在icassp 2020上发表的工作,重点是利用Cross-Lingual Language Model实现自然的End-to-End Code-Switching TTS。在缺乏同一说话人多种语言训练数据的情况下,通过CLLM生成词向量,结合encoder和音素信息,提高语音合成的自然度和语言切换的流畅性。实验表明,这种方法在跨语言和单语言场景下均有良好表现。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。

欢迎关注微信公众号:低调奋进

End-to-End Code-Switching TTS with Cross-Lingual Language  Model

本文章是新加坡国立大学电气与计算机工程系李海洲老师团队在icassp 2020发表的文章,主要做语言转换TTS工作,具体的文章链接

https://ieeexplore.ieee.org/abstract/document/9054722

 

1 研究背景

现在的TTS模型不仅需要支持多种语言,还要支持语言之间的切换自然。然而,大部分企业手中拥有不同说话人不同语言的语料,要想获取同一说话人不同语言的语料需要花费昂贵的成本。本文章设计了支持多语言跨语言的TTS,使语言切换更加自然。(研究背景实在不想再阐述了,其实目的只有一个:在缺乏同一个说话人拥有多种语言训练语料前提下,使该说话人的TTS模型支持多语言,而且语言切换更加自然)

2 系统结构

  该文章的主要想法其实很简单,我在此先阐述一下本文章的主要想法。本文章提出先使用跨语言语言模型(CLLM)把输入的文本输出词向量(WV),该词向量包含了上下文语境,然后把该向量与encoder输出和音素进行拼接,使输入到decoder的内容包含更多的语言信息,从而提高语音自然度。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我叫永强

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值