神经网络TTS让单一语音掌握多语言

神经网络TTS让单一语音掌握多语言

2021年,某中心的研究团队为其语音助手推出了美国英语和美国西班牙语的双语模式,用户可以用其中任何一种语言向助手提问,并得到相应语言的回答。为了确保英语和西班牙语的声音都具有自然的口音,最初这两个声音是基于不同配音演员的录音。因此,双语模式感觉像是在和两个不同的人说话。

现在,该中心的文本转语音团队采用了深度学习方法,将说地道美式西班牙语的能力——包括母语者的口音和流利度——移植到了一个仅基于英语录音的语音上。虽然目前该技术主要用于双语模式,但实验表明它应该可以推广到多种语言。

神经文本转语音使用神经网络直接从输入文本的音素表示生成语音。过去几年,某中心的TTS团队已使用NTTS将录音声音的语调转移到合成语音上,或改变合成语音的说话风格,使其听起来更像新闻播音员或DJ。同样,神经TTS使研究者能够教会一个已有的语音说一门新语言。

使用传统的TTS系统,实现此目标的方法是将目标语言的音素映射到说话者母语中的等效音素。但这会导致合成语音带有浓重的外国口音。另一种方法是寻找双语的配音演员并录制他们说两种语言,但这并不总是可行,并且限制了可以组合的语言数量。新的多语言模型解决了这两个问题。

共享空间

借助新技术,研究者首先使用来自多个说话者、多种语言的数据训练一个机器学习模型。模型从标准的神经TTS平台开始,该平台以一系列音素作为输入。研究者增加了两个额外的输入:一个是语言ID代码,另一个是说话者嵌入。说话者嵌入是一个向量表示,编码了特定说话者语音的独特特征。

音素序列传递给一个编码器,其输出是一个编码了音素声学信息的向量表示。研究者希望这个编码器能将来自不同语言、声学上相似的音素投影到表示空间的同一区域,而不受说话者身份或语言的影响。

音素编码、语言ID和说话者嵌入通过一个注意力机制,该机制根据解码器的当前状态决定哪些输入音素需要特别关注。解码器使用说话者和语言嵌入为特定说话者和语言生成正确的声学内容。在解码器输入端再次确认语言ID,使得编码器能够提取跨语言的通用表示。

所使用的说话者嵌入是在一个大型外部语料库的说话者分类任务中预训练的。相似说话者的嵌入会聚集在一起,与他们所说的语言无关。因此,系统可以使用说话者嵌入来推断说话者在不同语言中的发音。

评测

研究者从四个维度评估了模型的性能。首先,测量了输出英语的自然度,以确保不降低现有的体验。然后,测量了系统在西班牙语中的自然度、说话者相似度和口音质量。这三个度量确保了能为用户提供高质量的合成语音,该语音与原始说话者相似,并能以地道口音说西班牙语。

根据MUSHRA方法,下图显示了沿四个维度的测量结果的箱线图。研究者将当前的英语生产模型与新的双语模型进行了比较。图表从左到右展示了英语自然度、西班牙语自然度、西班牙语说话者相似度以及西班牙语口音的评估结果。

在两项自然度评估中,均使用了原始说话者的英语录音作为参考。从英语评估中可以看到,双语系统的性能略逊于英语模型。研究者认为,考虑到拥有一个能说两种语言的语音所带来的好处,这是一个较小且可接受的性能回归。双语系统在英语和西班牙语中达到了相似的自然度得分。

在说话者相似度评估中,研究者要求听众评估西班牙语样本与原始说话者随机英语录音的相似度,并评估原始双语模式中英语和西班牙语语音之间的相似度。研究者还将双语系统与一个将西班牙语音素映射到英语音素的英语模型版本进行了比较。

不出所料,双语模型的西班牙语语音听起来比原始双语模式中的西班牙语说话者更像英语目标说话者。双语模型的语音没有达到通过音素映射产生的语音的相同相似度,但这可能是由于听众对英语口音的偏见造成的。

在口音评估中,双语系统与西班牙语录音的评分之间没有统计学上的显著差异。换句话说,双语系统的发音与西班牙语录音一样地道。总体而言,研究者能够产生一个具有地道西班牙语口音的高质量合成语音,并被感知为与说英语的语音是同一个人,而无需英语配音演员来朗读西班牙语。

这项技术可能使语音助手在未来能够说更多的语言,因为可以使现有的说话者说一门新语言而无需进行额外的录音。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值