将端到端文本转语音速度提高38倍，全新语音合成系统FastSpeech 梅尔谱的生成速度提升270倍，微软和浙大联合推出

原创

于 2019-06-12 22:15:29 发布 · 786 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#全新语音合成系统 #FastSpeech #微软

微软亚洲研究院与浙江大学合作开发的FastSpeech，是一种基于Transformer的新型前馈网络，它提高了端到端文本转语音速度38倍，梅尔谱生成速度提升270倍，解决了现有技术的慢速、稳定性差和可控性问题。FastSpeech不仅速度快，而且鲁棒性强，可实现语音速度和停顿的控制。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

将端到端文本转语音速度提高38倍，全新语音合成系统FastSpeech 梅尔谱的生成速度提升270倍，微软和浙大联合推出

目前，基于神经网络的端到端文本到语音合成技术发展迅速，但仍面临不少问题——合成速度慢、稳定性差、可控性缺乏等。为此，微软亚洲研究院机器学习组和微软（亚洲）互联网工程院语音团队联合浙江大学提出了一种基于Transformer的新型前馈网络FastSpeech，兼具快速、鲁棒、可控等特点。

与自回归的Transformer TTS相比，FastSpeech将梅尔谱的生成速度提高了近270倍，将端到端语音合成速度提高了38倍，单GPU上的语音合成速度达到了实时语音速度的30倍。

近年来，基于神经网络的端到端文本到语音合成（Text-to-Speech,TTS）技术取了快速发展。与传统语音合成中的拼接法（concatenative synthesis）和参数法（statistical parametric synthesis）相比，端到端语音合成技术生成的声音通常具有更好的声音自然度。但是，这种技术依然面临以下几个问题：

合成语音的速度较慢：端到端模型通常以自回归（Autoregressive）的方式生成梅尔谱（Mel-Spectrogram），再通过声码器（Vocoder）合成语音，而一段语音的梅尔谱通常能到几百上千帧，导致合成速度较慢；
合成的语音稳定性较差：端到端模型通常采用编码器-注意力-解码器（Encoder-Attention-Decoder）机制进行自回归生成，由于序列生成的错误传播（Error Propagation）以及注意力对齐不准，导致出现重复吐词或漏词现象；
缺乏可控性：自回归的神经网络模型自动决定一条语音的生成长度，无法显式地控制生成语音的语速或者韵律停顿等。

为了解决上述的一系列问题，微软亚洲研究院机器学习组和微软（亚洲）互联网工程院语音团队联合浙江大学提出了一种基于Transformer的新型前馈网络FastSpeech，可以并行、稳定、可控地生成高质量的梅尔谱，再借助声码器并行地合成声音。

在LJSpeech数据集上的实验表明，FastSpeech除了在语音质量方面可以与传统端到端自回归模型（如Tacotron2和Transformer TTS）相媲美，还具有以下几点优势：

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。