语音合成论文优选:增量语音合成Alternate Endings Improving Prosody for ITTS

论文介绍了一种使用GPT2预测后续输入改进增量神经TTS(iTTS)语音质量的方法。通过与完整句子和实际获取后续词的系统对比,GPT2在降低延迟的同时提高了合成语音的自然度。然而,结果仍逊于全语境条件。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。

欢迎关注微信公众号:低调奋进

Alternate Endings: Improving Prosody for Incremental Neural TTS with Predicted Future Text Input

本文是格勒诺布尔阿尔卑斯大学在2021.02.19更新的文章,文章主要做增量语音合成工作iTTS,具体的文章链接https://arxiv.org/pdf/2102.09914.pdf

1 研究背景

在线系统对实时率要求较高,增量式语音合成iTTS是减少latency的方案之一。但语音合成需要根据全局的语境才能合成较高的语音,因此iTTS需要解决使用部分语境造成的语音自然度下降的问题。本文使用语言模型GPT2来预测语境,来优化iTTS的自然度。

2 详细设计

详细的设计为图1所示,使用GPT2预测下一个词,然后使用声学模型和声码器合成语音。其中table1展示了集中对比系统,Ground truth为完整句子, Unkonwn k=0,不做任何处理,Ground Truth k=1,完整句子中获取下一个词,GPT2 k=1使用gpt2预测下一个, random是随机预测一下词。

3 实验结果

实验对比了以上集中方案,图2展示了时长预测,可以看出GPT2的结果是弱于全句子和GT k=1,但好于k=0和random。tabel2和table3,图3都展示一致的结果。

4 总结

本文使用GPT2语音模型来优化增量语音合成ITTS的合成音频质量,结果比不做任何处理和随机添加词较好,但比正式语境差。(其实本文还可以添加一些实验,比如gpt2预测k的值可以增大,看结果变化)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我叫永强

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值