语音合成(TTS)论文优选:过平滑问题分析及优化Revisiting Over-Smoothness in Text to Speech

部署运行你感兴趣的模型镜像

声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵。搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html。语音合成领域论文列表请访问http://yqli.tech/page/tts_paper.html,语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。如何查找语音资料请参考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg)。如有转载,请注明出处。欢迎关注微信公众号:低调奋进。

Revisiting Over-Smoothness in Text to Speech

本文为浙江大学和微软在2022.02.26更新的文章,主要分析语音合成过平滑问题以及解决方案,具体的文章链接https://arxiv.org/pdf/2202.13066.pdf


1 背景

非自回归语音合成模型由于其快速的生成速度从而引起了学术界和工业界的广泛关注,但该模型的一个限制是它们在生成语音梅尔谱图时忽略了时域和频域的相关性,从而导致合成结果模糊和过度平滑。本文从一个新的角度重新审视了语音合成过度平滑的问题:过度平滑的程度取决于数据分布的复杂性和建模方法的能力之间的差距。简化数据分布和改进建模方法都可以缓解这个问题。

2 问题分析及解决方案

本文首先分析过平滑的问题是由于复杂的数据分布和建模方法之间的​差距,即建模方法不能够对相互依赖和多峰的数据进行很好的建模​。作者首先对建模数据的多峰及相互依赖进行可视化展示,结果如图1和图2所示​。图1展示了mel-spectrogram的数据是多峰分布,尤其在高频部分​。图2展示了数据分布不仅具有多峰分布而且有很强的相关性,因此常用的MAE or MSE loss不能够很好的​对其建模。本文总结了解决过平滑问题​的方案主要分为两类:simplifying data distributions和enhancing modeling methods​,具体方案总结参照table 1​。simplifying data distributions主要包括分解复杂的依赖分布为简单的条件分布(比如自回归)和提供更多的​条件变量信息来预测mel-spectrogram(比如pitch, duration, energy等)。enhancing modeling methods方案包括SSIM、GAN、Glow等等​。

3 实验分析

本部分将对以上的解决方案进行试验分析,使用的baseline 模型图​3所示。图4展示不同建模方法​。首先验证simplifying data distributions的实验,具体的结果如图5和table 2所示,使用自回归的FreqAR和TimeAR好于基准MAE,使用多变量信息的Fastspeech2​效果最好。接下来看一下建模方法的实验,本文列举的方法如table 3所示,其实验结果如图6和table4所示,虽然GAN和​Glow效果较好但其训练速度较为缓慢。本文结合以上的两类方案在单发音人和多发音人上进行试验,具体结果如table 5和table6所示,结合的方案可以提高合成的音频质量​。​

4 总结

本文是第一个对语音合成的过平滑问题进行系统分析总结,并对相应的解决方案进行试验总结,期望可以为语音社区设计更有的模型提供新颖的视角。

您可能感兴趣的与本文相关的镜像

HunyuanVideo-Foley

HunyuanVideo-Foley

语音合成

HunyuanVideo-Foley是由腾讯混元2025年8月28日宣布开源端到端视频音效生成模型,用户只需输入视频和文字,就能为视频匹配电影级音效

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我叫永强

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值