【论文学习笔记】《A Review of Deep Learning Based Speech Synthesis》

最新推荐文章于 2024-01-16 11:14:10 发布

原创

最新推荐文章于 2024-01-16 11:14:10 发布 · 1.2k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #神经网络 #tts #lstm #spss

本文回顾了语音合成的历史，从早期的传统拼接和参数合成方法，到基于统计参数的SPSS技术，再到现代深度学习的突破，如RBM、DBN、DMDN、DBLSTM和端到端模型（如WaveNet、Tacotron）。着重讨论了深度学习如何提升语音质量与自然度，以及未来的发展趋势，如上下文特征提取、半监督学习和跨领域应用.

基于深度学习的语音合成综述论文学习

文章目录

基于深度学习的语音合成综述论文学习

1 简介

这篇论文先是简单介绍了语音合成在当今社会的应用与影响，谈到了近几年发展迅速的深度学习让人们在语音合成领域有了很大的进展；接着介绍了语音合成的基础知识，发展历史以及技术方法；分别对统计参数语音合成技术与基于深度学习的语音合成技术做了详细介绍；最后对语音合成未来的发展方向进行探讨。

2 语音合成概述

2.1 语音合成概念

语音合成(TTS)就是将任何文本信息实时地转换成标准的、平滑的语音。它涉及声学、语言学、数字信号处理、计算机科学等多个学科。它是信息处理领域的一项前沿技术，尤其对于当前的智能语音交互系统而言。

2.2 语音合成发展历史

随着数字信号处理技术的发展，语音合成的研究目标已经从可理解性和清晰度发展到自然性和可表达性。

语音合成的早期技术主要是使用参数合成方法：

1971年，匈牙利科学家沃尔夫冈·冯·肯佩伦(Wolfgang von Kempelen)使用一系列精巧的风箱、弹簧、风笛和共鸣箱，创造了一种可以合成简单单词的机器。但合成语音的可理解性很差。

1980年，Klatt系列/并联共振峰合成器被提出。然而，由于共振峰参数的提取仍然是一个具有挑战性的问题，合成语音的质量难以满足实际需求。

1990年，基音同步重叠添加(PSOLA)算法被提出。该算法大大提高了时域波形拼接合成方法产生的语音的质量和自然度。然而，由于PSOLA需要准确标注音高周期或起始点，这两个因素的误差将极大地影响合成语音的质量。

后来，人们对语音合成技术进行了深入的研究，并利用 SPSS（统计参数语音合成）模型来提高合成语音的自然度。典型的例子是基于 hmm（隐马尔可夫）的合成方法和基于 dl（深度学习）的合成方法。大量的实验结果表明，这些模型合成的语音在语音质量和自然度方面都有很大的提高。

2.3 传统语音合成技术

2.3.1 拼接式语音合成

根据输入的文本所分析的上下文信息，从预先录制并标注好的语音语料库中选择合适的语音单元，并将选定的语音单元连接起来得到最终的合成语音。

基于线性预测系数拼接：主要是利用语音的LPC编码来减少语音信号所占用的存储容量，合成也是一个简单的解码和拼接过程。这种方法合成的语音对于单个单词来说是非常自然的，因为编解码器保留了语音的大部分信息。然而，由于人们实际说话时词语的自然流动并不仅仅是单个孤立的言语单元的简单串联，整体效果会受到拼接点的影响。

基于PSOLA拼接：根据目标语境调整连接单元的韵律，使最终合成的波形既保持了原始语音的语音质量，又使连接单元的韵律特征符合目标语境。然而，这种方法也有很多缺陷:合成语音的质量会受到音高周期或起始点的影响;能否保持平稳过渡的问题尚未解决。

2.3.2 参数式语音合成

参数语音合成是指利用数字信号处理技术从文本中合成语音的方法。

该方法将人的发声过程看作是一个模拟过程，利用声门状态源来激发一个时变数字滤波器来表征信道的共振特性。通过调整滤波器的参数，可以合成各种类型的语音。

典型的方法有语音器官参数合成、共振峰参数合成、基于hmm的语音合成和基于深度神经网络(DNN)的语音合成。

3 基于统计参数的语音合成技术

一个完整的SPSS系统一般由三个模块组成:文本分析模块、使用统计模型预测基频(F0)、谱参数、时长等声学特征参数的参数预测模块、语音合成模块。

SPSS通常分为两个阶段:训练阶段和综合阶段。
在训练阶段，首先从语料库中提取F0、光谱参数等声学特征参数，然后根据文本分析模块的语言特征和提取的声学特征参数训练统计声学模型。
在合成阶段，利用训练好的声学模型，在语言特征的指导下对声学特征参数进行预测。最后，利用声码器根据预测的声学特征参数合成语音。