两种合成自然韵律语音的新方法

部署运行你感兴趣的模型镜像

在ICASSP 2021会议上,某中心文本转语音团队发表了两篇关于合成具有上下文适当韵律的语音的新论文。韵律包括语音的节奏、重音、旋律、时长和响度。文本转语音(TTS)是一个一对多问题,同一段文本可能有多种合适的韵律呈现方式。确定文本的韵律是一个复杂问题,但可以显著提高合成语音的自然度。

这两篇论文中描述的方法共享通用理念,但解决问题的方式根本不同。

Kathaka架构

论文《神经文本转语音的韵律表示学习和上下文采样》介绍了Kathaka模型,该模型采用新颖的两阶段方法训练。第一阶段,模型通过变分学习方法学习训练数据中所有语音样本的韵律分布。第二阶段,模型根据与语音样本相关文本的语义和句法特征学习从该分布中采样。

根据使用行业标准MUSHRA方法的听者研究,Kathaka产生的语音在自然度方面比基线TTS模型提高了13.2%。

CAMP架构

另一篇论文《CAMP:上下文韵律建模的两阶段方法》介绍了上下文感知韵律模型CAMP。与Kathaka类似,CAMP采用两阶段方法训练。第一阶段,CAMP以非变分方式学习训练数据中每个语音样本每个词的韵律表示。第二阶段,模型根据相关文本的语义和句法特征学习预测这些学习到的表示。

根据MUSHRA评估的听者研究,CAMP产生的语音在自然度方面比基线TTS模型提高了26%。

技术细节

Kathaka采用双编码器架构:

  • 参考编码器处理梅尔频谱图,输出韵律分布参数(均值μ和方差σ)
  • 音素编码器处理音素序列
  • 使用BERT模型获取上下文词嵌入,并结合图神经网络处理句法解析树
  • 采样器从文本预测韵律分布参数

CAMP采用词级韵律表示:

  • 词级参考编码器生成词级韵律表示
  • 结合BERT嵌入和四种句法标签(词性、词类、名词结构、标点结构)
  • 预测阶段用文本生成的表示替换参考编码器输出

两种方法在推理时均使用文本的语义和句法特征来预测韵律表示,替代训练阶段的参考编码器输出,从而实现更自然的语音合成。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

您可能感兴趣的与本文相关的镜像

TensorFlow-v2.15

TensorFlow-v2.15

TensorFlow

TensorFlow 是由Google Brain 团队开发的开源机器学习框架,广泛应用于深度学习研究和生产环境。 它提供了一个灵活的平台,用于构建和训练各种机器学习模型

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值