语音合成论文优选:短语级语音并发合成PPSpeech: Phrase based Parallel End-to-End TTS System

部署运行你感兴趣的模型镜像

声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。

欢迎关注微信公众号:低调奋进

PPSpeech: Phrase based Parallel End-to-End TTS System

本文出自北京邮电大学,更新2020.08.06,本文主要针对现在句子级别的自回归系统tacotron2,实现短语级的系统,从而提高推理速度。具体的文章链接 https://arxiv.org/pdf/2008.02490.pdf

1 研究背景

语音合成的自回归系统taoctron2不便于进行并发合成,因为此刻的
推理需要依赖上一时刻的输出,因此推理速度十分缓慢。本文针对句子级别(sentence-level)系统存在的问题,提出短语级别(phrase-level)的合成系统,使其可以并发合成,从而提高推理速度。为了解决使用短语级别带来的韵律发生变化和音色变换,本文又添加acousic embedding和context embedding作为taoctorn 2的条件特征,从而使其合成的质量跟句子级别保持一致。


2 详细设计

具体的系统架构为图1所示,为了解决使用短语级别带来的韵律发生变化和音色变换,本文添加acoustic embedding和context embedding作为taoctorn 2的条件特征,其中acoustic encoder和context encoder的结构如图2所示。context encoder的生成需要前一个phrase和后一个phrase经过tacotron2的encoder后的embedding作为输入。另外整个系统的输入类似滑动窗口,具体的如图3所示,其中M为前面phrase个数,N为后面phrase个数,k为当前phrase个数。训练的时候,M=N=1,K=3,推理的时候M=N=K=1。

3 实验

 本文先对比使用phrase级别的合成效果。由table 1显示,本文ppspeech的MOS值最高,因此添加context encoder和acoustic encoder模块具有提高合成音频自然度的效果。接下来图4和图5分别对比context encoder和acoustic encoder,添加后的语谱图与原始录音更一致。图6和图7是和句子级别系统进行合成音质和合成速度对比,图6显示本系统和句子级别合成质量几乎相等,图7显示合成速度随着句子长度几乎不变。

4 总结

本文针对语音合成系统使用句子级别存在无法并发合成问题,提出短语级别合成系统,使其可以并发合成,从而提高推理速度。实验证明本系统可以保证合成音频质量的前提下,合成速度与原来系统对比,随着句子长度增长优势越明显。

您可能感兴趣的与本文相关的镜像

HunyuanVideo-Foley

HunyuanVideo-Foley

语音合成

HunyuanVideo-Foley是由腾讯混元2025年8月28日宣布开源端到端视频音效生成模型,用户只需输入视频和文字,就能为视频匹配电影级音效

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我叫永强

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值