《A Survey on Neural Speech Synthesis》论文学习
摘要
文本到语音( Text to speech , TTS ),又叫语音合成,其目的是从给定文本合成可理解和自然语音,是语音、语言和机器学习领域的一个热点研究课题,在业界有着广泛的应用。
近年来,随着深度学习和人工智能的发展,基于神经网络的 TTS 大大提高了合成语音的质量。
在本文中,我们对神经 TTS 进行了一个全面的调查,旨在提供一个良好的研究现状和未来的趋势。
我们重点讨论了神经网络 TTS 的关键组成部分,包括文本分析、声学模型和声码器,以及一些高级主题,包括快速 TTS 、低资源 TTS 、鲁棒 TTS 、表达性 TTS 和自适应 TTS 等。
我们进一步总结了与 TTS 相关的资源(如数据集、开源实现),并讨论了未来的研究方向。
这项调查可以服务于从事 TTS 研究的学术研究者和行业从业者。
1 介绍
文本到语音( Text to speech , TTS ),又称语音合成( speech synthesis ),旨在从文本中合成出可理解、自然的语音(《Text-to-speech synthesis》),在人类交际中有着广泛的应用(《Understanding Human Communication》),一直是人工智能、自然语言和语音处理领域的研究课题(《Artificial intelligence: a modern approach》,《Foundations of statistical natural language processing》,《Speech & language processing》)。
开发一个 TTS 系统需要关于语言和人类语音产生的知识,涉及多个学科,包括语言学(《Course in general linguistics》)、声学(《Fundamentals of acoustics》)、数字信号处理(《Digital signal processing》)和机器学习(《Pattern recognition and machine learning》,《Machine learning: Trends, perspectives, and prospects》)。
随着深度学习的发展(《Deep learning》),基于神经网络的 TTS 蓬勃发展,针对神经 TTS 不同方面的大量研究工作应运而生(《Statistical parametric speech synthesis using deep neural networks》,《Wavenet: A generative model for raw audio》,《Tacotron: Towards end-to-end speech synthesis》,《Natural tts synthesis by conditioning wavenet on mel spectrogram predictions》,《Efficient neural audio synthesis》,《Deep voice 3: 2000-speaker neural text-to-speech》,《Neural speech synthesis with transformer network》,《Fastspeech: Fast, robust and controllable text to speech》)。
因此,近年来合成语音的质量有了很大的提高。
了解目前的研究现状,找出尚未解决的研究问题,对于从事 TTS 工作的人是非常有帮助的。
虽然有多个调查论文统计参数语音合成(《Statistical parametric speech synthesis》,《Speech synthesis based on hidden markov models》,《Acoustic modeling in statistical parametric speech synthesis-from hmm to lstm-rnn》)和神经 TTS (《Speech synthesis techniques. a survey》,《A survey on text to speech translation of multi language》,《Survey on various methods of text to speech synthesis》,《A review of deep learning based speech synthesis》,《Towards robust neural vocoding for speech generation: A survey》,《A survey on speech synthesis techniques in indian languages》,《Review of end-to-end speech synthesis technology based on deep learning》),全面调查神经 TTS 的基础知识和最新发展仍然是必要的因为这一领域的主题是多样的和迅速发展。
本文对神经系统 TTS 进行了深入而全面的研究。
在接下来的章节中,我们首先简要回顾了 TTS 技术的发展历史,然后介绍了神经 TTS 的一些基本知识,最后概述了本研究的概况。
1.1 TTS 技术的历史
早在 12 世纪,人们就尝试建造机器来合成人类语音。
18 世纪下半叶,匈牙利科学家沃尔夫冈·冯·肯佩伦( Wolfgang von Kempelen )用一系列的风箱、弹簧、风笛和共振箱制造出一些简单的单词和短句(《The speaking machine of wolfgang von kempelen》),制造出了一个会说话的机器。
第一个建立在计算机上的语音合成系统出现在 20 世纪下半叶。
早期基于计算机的语音合成方法包括发音合成(《A model of articulatory dynamics and control》,《Prospects for articulatory synthesis: A position paper》)、共振峰合成(《Automatic generation of control signals for a parallel formant speech synthesizer》,《Mitalk-79: The 1979 mit text-to-speech system》,《Software for a cascade/parallel formant synthesizer》,《Review of text-to-speech conversion for english》)和串联合成(《Rule synthesis of speech from dyadic units》,《Pitch-synchronous waveform processing techniques for text-to-speech synthesis using diphones》,《Atr µ-talk speech synthesis system》,《Unit selection in a concatenative speech synthesis system using a large speech database》,《The festival speech synthesis system》)。
后来,随着统计机器学习的发展,统计参数语音合成( statistical parametric speech synthesis, SPSS )被提出(《Simultaneous modeling of spectrum, pitch and duration in hmm-based speech synthesis》,《Speech parameter generation algorithms for hmm-based speech synthesis》,《Statistical parametric speech synthesis》,《Speech synthesis based on hidden markov models》),用于预测语音合成的频谱、基频、持续时间等参数。
从 2010 年开始,基于神经网络的语音合成(《Statistical parametric speech synthesis using deep neural networks》,《On the training aspects of deep neural network (dnn) for parametric tts synthesis》,《TTS synthesis with bidirectional lstm based recurrent neural networks》,《Unidirectional long short-term memory recurrent neural network with recurrent output layer for low-latency speech synthesis》,《First step towards end-to-end parametric tts synthesis: Generating spectral parameters with neural attention》,《Emphasis: An emotional phoneme-based acoustic model for speech synthesis system》,《Wavenet: A generative model for raw audio》,《Tacotron: Towards end-to-end speech synthesis》)逐渐成为语音合成的主导方法,取得了更好的语音质量。
发音参数合成
发音合成通过模拟人类的发音器官如嘴唇、舌头、声门和活动声道的行为来产生语音。
理想情况下,发音合成是最有效的语音合成方法,因为它是人类产生语音的方式。
然而,在实践中很难对这些关节行为进行建模。
例如,关节模拟的数据收集是困难的。
因此,发音合成的语音质量通常比后共振峰合成和串联合成的语音质量差。
共振峰合成法
共振峰合成基于一组控制简化源滤波器模型的规则产生语音。
这些规则通常是由语言学家开发的,以尽可能接近地模仿共振峰结构和语音的其他光谱特性。
语音是由一个附加的合成模块和一个具有不同参数如基频、语音和噪声水平的声学模型合成的。
共振峰合成可以产生高度可理解的语音,计算资源适中,非常适合于嵌入式系统,而且不像串联合成那样依赖于大规模的人类语音语料库。
然而,合成的语音听起来不那么自然,而且有人工痕迹。
此外,很难为合成指定规则。
拼接合成
连接合成依赖于存储在数据库中的语音片段的连接。
通常,该数据库由语音单元组成,从完整的句子到配音演员录制的音节。
在推理中,串联式 TTS 系统搜索语音单元以匹配给定的输入文本,并通过串联这些单元产生语音波形。
一般来说,串联式 TTS 可以产生具有高清晰度和真实音色接近原始声优的音频。
然而,串联式 TTS 需要庞大的录音数据库来覆盖所有可能的语音单元组合。
另一个缺点是生成的声音不那么自然和情绪化,因为串联会导致在重音、情绪、韵律等方面不那么流畅。
统计参数语音合成
为了解决串联式 TTS 的缺点,提出了统计参数语音合成( SPSS )。
其基本思想是,我们可以先生成生成语音所需的声学参数(《An adaptive algorithm for mel-cepstral analysis of speech》,《Mel-generalized cepstral analysis-a unified approach to speech spectral estimation》,《Restructuring speech representations using a pitch-adaptive time frequency smoothing and an instantaneous-frequencybased f0 extraction: Possible role of a repetitive structure in sounds》),然后使用一些算法(《Mel log spectrum approximation (mlsa) filter for speech synthesis》,《Cepstral analysis synthesis on the mel frequency scale》,《Straight, exploitation of the other aspect of vocoder: Perceptually isomorphic decomposition of speech sounds》,《World: a vocoder-based high-quality speech synthesis system for real-time applications》)从生成的声学参数中恢复语音,而不是通过串联直接产生波形。
SPSS 通常由三部分组成:文本分析模块、参数预测模块(声学模型)和声码器分析/合成模块(声码器)。
文本分析模块首先对文本进行处理,包括文本归一化(《Normalization of non-standard words》)、字素音素转换(《Joint-sequence models for grapheme-to-phoneme conversion》)、分词等,然后从不同粒度中提取语音、持续时间、词性标签等语言特征。
使用配对的语言特征和参数(声学特征)来训练声学模型(例如,基于隐马尔科夫模型( HMM )),其中声学特征包括基频、频谱或倒谱等,并通过声码分析从语音中提取。
声码器根据预测的声学特征合成语音。
SPSS 比以前的TTS系统有几个优势:
1)自然,音频更自然;
2)灵活性,方便修改参数控制语音生成;
3)数据成本低,比串联合成需要更少的记录。
然而, SPSS 也有它的缺点:
1)生成的语音具有较低的可理解性,由于人为因素,如低沉的,嗡嗡声或嘈杂的音频;
2)生成的声音仍然是机器人的,可以很容易地区别于人类录音的语音。
近 2010 年,随着神经网络和深度学习的快速发展,一些工作首先将深度神经网络引入 SPSS ,如基于深度神经网络( DNN )(《Statistical parametric speech synthesis using deep neural networks》,《On the training aspects of deep neural network (dnn) for parametric tts synthesis》)和基于循环神经网络( RNN )(《Acoustic modeling in statistical parametric speech synthesis-from hmm to lstm-rnn》,《Unidirectional long short-term memory recurrent neural network with recurrent output layer for low-latency speech synthesis》)。
然而,这些模型用神经网络代替了 HMM ,仍然可以从语言特征中预测声音特征,这是遵循 SPSS 的范式。
后来, Wang 等人(《First step towards end-to-end parametric tts synthesis: Generating spectral parameters with neural attention》)提出直接从音位序列生成声学特征,而不是语言特征,这可以说是端到端语音合成的第一次探索。
在这个调查中,我们关注基于神经的语音合成,主要是端到端模型。
由于后来的 SPSS 也使用神经网络作为声学模型,我们简要描述这些模型,但不深入的细节。

神经语音合成
随着深度学习的发展,基于神经网络的语音合成被提出,它采用(深度)神经网络作为语音合成的模型主干。
SPSS 中采用了一些早期的神经模型来代替 HMM 进行声学建模。
后来又提出了 WaveNet ,直接从语言特征中生成波形,可视为现代第一个神经 TTS 模型。
其他模型如 DeepVoice 1/2 (《Deep voice: Real-time neural text-to-speech》,《Deep voice 2: Multi-speaker neural text-to-speech》)在统计参数综合中仍然遵循这三个成分,但使用相应的基于神经网络的模型对其进行升级。
此外,我们还提出了一些端到端模型(例如 Tacotron 1/2 (《Tacotron: Towards end-to-end speech synthesis》,《Natural tts synthesis by conditioning wavenet on mel spectrogram predictions》), Deep Voice 3 (《Deep voice 3: 2000-speaker neural text-to-speech》), FastSpeech 1/2 (《Fastspeech: Fast, robust and controllable text to speech》,《Fastspeech 2: Fast and high-quality end-to-end text to speech》))来简化文本分析模块,直接将字符/音素序列作为输入,并利用梅尔谱图简化声学特征。
后来,开发了完全端到端 TTS 系统,直接从文本生成波形,如 ClariNet (《Clarinet: Parallel wave generation in end-to-end text-to-speech》), WaveGlow (《Waveglow: A flow-based generative network for speech synthesis》)和 EATS (《End-to-end adversarial text-to-speech》)。
与以往基于串联合成和统计参数合成的语音合成系统相比,基于神经网络的语音合成的优点是语音质量高,在可理解性和自然度方面,而且对人的预处理和特征开发要求较少。
1.2 调查的组成
本文主要综述了神经 TTS 的研究工作,主要分为两部分,如图 2 所示。

TTS 中的关键组件
现代的 TTS 系统由三个基本组件组成:文本分析模块、声学模型和声码器。
如图 1 所示,文本分析模块将文本序列转化为语言特征,声学模型由语言特征生成声学特征,声码器根据声学特征合成波形。
我们在第二节中对神经 TTS 的三个组成部分进行了综述。
具体来说,我们首先在第 2.1 节介绍了神经 TTS 的基本组成部分的主要分类,然后分别在第 2.2 节、 2.3 节和 2.4 节介绍了文本分析、声学模型和声码器的工作。
我们在第 2.5 节中进一步介绍了对完全端到端 TTS 的研究。
虽然我们主要从神经 TTS 中关键成分的分类来回顾研究工作,但我们也在 2.6 节中描述了其他几个分类,包括序列生成的方式(自回归或非自回归)、不同的生成模型和不同的网络结构。
此外,我们还在 2.6 节中说明了一些具有代表性的 TTS 工作的时间演化。
TTS 中的前沿问题
除了神经 TTS 的关键组成部分外,我们还进一步综述了神经 TTS 的几个前沿问题,这些问题推动了 TTS 研究的前沿领域,解决了 TTS 产品中的实际挑战。
例如,由于 TTS 是一个典型的序列到序列生成任务,输出序列通常很长,如何加快自回归生成,减少模型规模以实现快速语音合成是目前的研究热点(第 3.2 节)。
一个好的语音合成系统应该生成自然和可理解的语音,而大量的语音合成研究工作旨在提高语音合成的可理解性和自然度。
例如,在用于训练 TTS 模型的数据不足的低资源场景中,合成的语音可能具有低的可理解性和自然度。
因此,许多工作的目标是在低资源设置下建立数据高效的 TTS 模型(第 3.3 节)。
由于 TTS 模型面临鲁棒性问题,生成的语音中存在跳词和重复问题会影响语音质量,因此很多工作都是为了提高语音合成的鲁棒性(第 3.4 节)。
为了提高语言的自然性和表现力,很多作品对语言的风格/韵律进行建模、控制和转换,以生成富有表现力的语言(第 3.5 节)。
通过调整 TTS 模型来支持任何目标说话人的语音,对于 TTS 的广泛应用是非常有帮助的。
因此,在有限的适配数据和参数下进行有效的语音适配对于实际 TTS 应用至关重要(章节 3.6 )。
为了进一步丰富这个调查,我们在第 4 节中总结了 TTS 的相关资源,包括开源实现、语料库和其他有用的资源。
我们在第 5 节中总结了这一调查,并讨论了未来的研究方向。
2 TTS 中的关键组件
在本节中,我们将从神经 TTS 的关键组成部分(文本分析、声学模型和声码器)的角度回顾研究工作。
我们首先在第 2.1节介绍这个观点下的主要分类,然后分别在第 2.2 节、第 2.3 节和第 2.4 节介绍三个 TTS 组件。
此外,我们在第 2.5 节中回顾了关于完全端到端 TTS 的工作。
除了主要的分类法,我们还在 2.6 节中介绍了更多的分类法,如自回归/非自回归序列生成、生成模型、网络结构,以及关于 TTS 的代表性研究工作的时间轴。


2.1 主要分类
我们主要从 TTS 的基本组成部分:文本分析、声学模型、声码器和完全端到端模型的角度对神经 TTS 的工作进行分类,如图 3a 所示。
我们发现这种分类与文本到波形的数据转换流程是一致的:
1)文本分析将字符转换为音位或语言特征;
2)声学模型从语言特征或字符/音素生成声学特征;
3)声码器通过语言特征或声学特征生成波形;
4)全端到端模型直接将字符/音素转换成波形。
我们根据从文本到波形的数据流重新组织 TTS 工作,如图 3b 所示。在文本到语音的转换过程中,有几种数据表示形式:
1)字符,即文本的原始格式。
2)通过文本分析得到的语言特征,包含丰富的语音、韵律等语境信息。音素是语言特征中最重要的元素之一,在基于神经网络的语篇识别模型中,音素通常单独用于表示文本。
3)声学特征是语音波形的抽象表示。在统计参数语音合成中,LSP (line spectral pairs)(《Line spectrum representation of linear predictor coefficients of speech signals》) , MCC ( mel- 倒谱系数)(《An adaptive algorithm for mel-cepstral analysis of speech》) ,MGC ( mel- 广义系数)(《Mel-generalized cepstral analysis-a unified approach to speech spectral estimation》) , F0 和 BAP ( band aperiodicities )(《Restructuring speech representations using a pitch-adaptive time frequency smoothing and an instantaneous-frequencybased f0 extraction: Possible role of a repetitive structure in sounds》,《Aperiodicity extraction and control using mixed mode excitation and group delay manipulation for a high quality speech analysis, modification and synthesis system straight》) 作为声学特征,可以通过诸如 STRAIGHT (《Straight, exploitation of the other aspect of vocoder: Perceptually isomorphic decomposition of speech sounds》) 和 WORLD (《World: a vocoder-based high-quality speech synthesis system for real-time applications》) 等声码器轻松转换成波形。
4)波形,语音的最终格式。在基于神经网络的端到端 TTS 模型中,通常使用 mel 谱图或线性谱图作为声学特征,通过神经网络的声码器将其转换为波形。
从图 3b 可以看出,从文本到波形可以有不同的数据流,包括:
1)字符→语言特征→声学特征→波形;
2)字符→音素→声学特征→波形;
3)字符→语言特征→波形;
4)字符→音素→声学特征→波形;
5)字符→音素→波形,或字符→波形。
2.2 文本分析
文本分析( Text analysis , TTS )将输入文本转换为包含丰富语音和韵律信息的语言特征,以方便语音合成。
在统计参数合成中,文本分析用于提取语言特征向量序列(《Speech synthesis based on hidden markov models》),包含文本归一化(《Rnn approaches to text normalization: A challenge》,《A hybrid text normalization system using multi-head self-attention for mandarin》)、分词(《Chinese word segmentation as character tagging》)、词性标注(《The effects of part of speech tagging on text to speech synthesis for resource scarce languages》)、韵律预测(《Locating boundaries for prosodic constituents in unrestricted mandarin texts》)和字素-音素转换(《Sequence-to-sequence neural net models for grapheme-tophoneme conversion》)等功能。
在端到端神经 TTS 中,由于基于神经网络的模型建模能力大,直接将字符或音素序列作为输入进行合成,大大简化了文本分析模块。
在这种情况下,仍然需要进行文本规范化以从字符输入获得标准的单词格式,还需要进一步进行字素到音素转换以从标准的单词格式获得音素。
虽然一些 TTS 模型声称完全端到端综合,直接从文本产生波形,但文本规范化仍然需要处理任何可能的非标准格式的原始文本以供实际使用。
此外,一些端到端 TTS 模型结合了传统的文本分析功能。
例如, Char2Wav (《Char2wav: End-to-end speech synthesis》)和 DeepVoice 1/2 (《Deep voice: Real-time neural text-to-speech》,《Deep voice 2: Multi-speaker neural text-to-speech》)将字符到语言的特征转换到其管道中,纯粹基于神经网络,一些作品(《Predicting expressive speaking style from text in end-to-end speech synthesis》)通过文本编码器明确预测韵律特征。
在本小节的其余部分中,我们首先介绍统计参数综合中的文本分析的典型任务,然后讨论端到端 TTS 模型中的文本分析的发展。

我们在表 1 中总结了文本分析中的一些典型任务,并介绍了每个任务的一些代表性工作如下。
文本标准化
将原始的书面文本(非标准词)通过文本规范化转换为口语词,使 TTS 模型更容易发音。
例如, “1989” 年被标准化为"nineteen eighty nine"年, “Jan. 24"被标准化为"Janunary twenty-fourth”。
文本归一化的早期工作是基于规则的(《Normalization of non-standard words》),然后利用神经网络将文本归一化建模为序列到序列的任务,其中源和目标序列分别是非标准词和口语形式的词(《Rnn approaches to text normalization: A challenge》,《Neural text normalization with subword units》,《Neural models of text normalization for speech applications》)。
最近,一些工作(《A hybrid text normalization system using multi-head self-attention for mandarin》)提出将基于规则的模型和基于神经的模型的优点结合起来,进一步提高文本规范化的性能。
词语切分
对于基于字符的语言,如汉语,分词(《Deep learning for chinese word segmentation and pos tagging》,《Max-margin tensor neural network for chinese word segmentation》)是从原始文本中检测词边界是必要的,这对于确保以后的词性标注、韵律预测和字素到音素转换过程的准确性是重要的。
词性标注
词的词性(词性),如名词、动词、介词等,对于字音素转换和韵律预测也很重要。
已有一些研究研究了词性标注在语音合成中的作用(《The effects of part of speech tagging on text to speech synthesis for resource scarce languages》,《Improved pos tagging for text-to-speech synthesis》,《Morphological analysis based part-of-speech tagging for uyghur speech synthesis》,《Application of neural networks for pos tagging and intonation control in speech synthesis for polish》)。
韵律短语预测
语音的节奏、重音、语调等韵律信息对应着音节长度、响度和音高的变化,在人类语音交流中起着重要的感知作用。
韵律预测依赖于标注系统对每种韵律进行标注。
不同的语言有不同的韵律标注系统和工具(《Tobi: A standard for labeling english prosody》,《Autobi-a tool for automatic tobi annotation》,《The tilt intonation model》,《Automatic analysis of prosody for multilingual speech corpora》,《Slam: Automatic stylization and labelling of speech melody》)。
对于英语, ToBI (音调和分音索引)是一个流行的标签系统,它描述了音调(例如,音调重音,短语重音和边界音调)和分音(单词之间的分音有多强)的标签。
例如,在这个句子中 “Mary went to the store ?”, "Mary"和"store"可以强调,这个句子是升调。
许多著作(《Exploiting acoustic and syntactic features for prosody labeling in a maximum entropy framework》,《Automatic prosodic labeling with conditional random fields and rich acoustic features》,《Automatic prosodic events detection using syllable-based acoustic and syntactic features》,《Automatic prosody prediction and detection with conditional random field (crf) models》)研究了基于 ToBI 的不同模型和特征来预测韵律标签。
在汉语语音合成中,典型的韵律边界标签由韵律词( PW )、韵律短语( PPH )和语调短语( IPH )组成,可以构造三层层次的韵律树(《Locating boundaries for prosodic constituents in unrestricted mandarin texts》,《Chinese prosody structure prediction based on conditional random fields》,《Automatic prosody prediction for chinese speech synthesis using blstm-rnn and embedding features》)。
一些研究(《一种用于统计参数语音合成的具有振幅和相位谱分层生成的神经声码器》,《Self-attention based prosodic boundary prediction for chinese speech synthesis》,《Implementing prosodic phrasing in chinese endto-end speech synthesis》)探讨了不同的模型结构,如 CRF (《Conditional random fields: Probabilistic models for segmenting and labeling sequence data》), RNN</

本文全面探讨神经TTS技术,涵盖关键组件如文本分析、声学模型及声码器,深入高级主题包括快速、低资源、鲁棒、富有表现力及自适应TTS,总结现有资源与未来研究方向。
最低0.47元/天 解锁文章
7782

被折叠的 条评论
为什么被折叠?



