【论文学习】《Neural Speech Synthesis with Transformer Network》

最新推荐文章于 2024-04-25 09:51:42 发布

原创

最新推荐文章于 2024-04-25 09:51:42 发布 · 1.7k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#Transformer #TTS #Tacotron #RNN #CNN

本文介绍了将Transformer网络应用于神经文本到语音合成(TTS)系统，以解决 Tacotron2 模型存在的训练和推理效率低及长依赖关系建模困难的问题。TransformerTTS模型引入多头自注意力机制，实现并行训练，有效处理远程依赖，提高训练速度。实验表明，TransformerTTS模型在训练速度上比Tacotron2快4.25倍，生成的音频质量与真人录音相当，CMOS差距仅为0.048，接近真人质量。

《Neural Speech Synthesis with Transformer Network》论文学习

文章目录

《Neural Speech Synthesis with Transformer Network》论文学习

摘要

尽管端到端神经文本到语音(TTS)方法(如Tacotron2)已经提出并取得了良好的性能，但它们仍然存在两个问题：（1）训练和推理效率低；（2）利用现有的递归神经网络(RNN)难以建模长依赖关系。受Transformer网络在神经机器翻译(NMT)中的成功启发，本文引入并采用多头注意机制来替代RNN结构，以及Tacotron2中原有的注意机制。在多头自注意的帮助下，并行构造编码器和解码器中的隐藏状态，提高了训练效率。同时，任意两个不同时间的输入通过自注意机制直接连接，有效地解决了远程依赖问题。我们的Transformer TTS网络使用音素序列作为输入，生成mel谱图，然后使用WaveNet声码器输出最终的音频结果。通过实验验证了该网络的效率和性能。在效率方面，我们的Transformer TTS网络可以比Tacotron2提高约4.25倍的训练速度。在性能方面，严格的真人测试表明，我们提出的模型达到了最先进的性能(优于Tacotron2，差距为0.048)，非常接近真人质量(MOS为4.39 vs 4.44)。

1 介绍

文本到语音(TTS)是一项非常重要的用户交互任务，旨在合成与人的录音难以区分的、可理解的、自然的音频。传统的TTS系统有两个组成部分：前端和后端。前端负责文本分析和语言特征提取，如分词、词性标注、多词消歧、韵律结构预测等；从前端构建基于语言特征的语音合成后端，如语音声学参数建模、韵律建模和语音生成。在过去的几十年里，连接式和参数式语音合成系统是主流技术。然而，它们都有复杂的管道，定义良好的语言特性通常是耗时的和特定的语言，这需要大量的资源和人力。此外，与人类语言相比，合成音频往往在韵律和发音上有小故障或不稳定，因此听起来不自然。

近年来，随着神经网络的快速发展，提出了端到端生成文本到语音模型，如Tacotron (《Tacotron: A fully end-to-end text-to-speech synthesis model》)和Tacotron2 (《Natural tts synthesis by conditioning wavenet on mel spectrogram predictions》)，通过用单一神经网络代替这些语言和声学特征的产生，简化了传统的语音合成流水线。Tacotron和Tacotron2首先直接从文本生成mel谱图，然后通过声码器合成音频结果，如Griffin Lim算法(《Signal estimation from modified short-time fourier transform》)或WaveNet (《Wavenet: A generative model for raw audio》)。
有了端到端神经网络，合成音频的质量大大提高，甚至在某些数据集上可以与人类录音相媲美。端到端神经TTS模型包含两个部分，编码器和解码器。给定输入序列(单词或音素)，编码器试图将其映射到语义空间，生成编码器隐藏状态序列，解码器将这些隐藏状态作为具有注意机制的上下文信息，构造解码器隐藏状态，然后输出mel框架。对于编码器和解码器，通常使用递归神经网络(RNNs)，如LSTM (《Long short-term memory》)和GRU (《Learning phrase representations using rnn encoderdecoder for statistical machine translation.》)。

然而，RNN只能使用输入并按顺序生成输出，因为构建当前隐藏状态都需要先前的隐藏状态和当前的输入。顺序过程的特点限制了训练和推理过程的并行化能力。出于同样的原因，对于一个特定的框架，来自多个步骤的信息在多次重复处理后可能会有偏差。为了解决这两个问题，提出了Transformer (《Attention is all you need》)来替代NMT模型中的RNN。

受到这一思想的启发，本文结合Tacotron2和Transformer的优点，提出了一种新颖的端到端TTS模型，该模型引入多头注意机制来替代编解码器中的RNN结构，以及普通的注意网络。自注意机制解除了对前一个隐藏状态的顺序依赖，提高了并行化能力，缓解了远程依赖问题。与编码器和解码器之间的普通注意相比，多头注意可以利用不同的注意头从不同方面构建上下文向量。以音素序列为输入，利用Transformer TTS网络生成语音谱图，利用WaveNet作为声码器进行语音合成。我们使用25小时的专业语音数据集进行实验，由测试人员对音频质量进行评估。评估结果表明，我们提出的模型在CMOS间隙为0.048的情况下优于原始Tacotron2，并且在人工记录(MOS)(4.44)的情况下达到了类似的性能(MOS 4.39)。与Tacotron2相比，Transformer TTS模型的训练速度提高了4.25倍。

2 背景

在本节中，我们首先介绍了序列到序列模型，然后简要介绍了Tacotron2和Transformer，这是我们工作中的两个初步内容。

2.1 序列到序列模型

序列到序列模型(《Sequence to sequence learning with neural networks》，《Neural machine translation by jointly learning to align and translate》)转换输入序列 $x_1, x_2,..., x_T)$ 转换为输出序列 $(y_1, y_2,..., y_{T^\prime})$ ，每个预测的 $y_t$ 是基于所有之前预测的输出 $y_1,..., y_{t-1})$ 。在大多数情况下，这两个序列长度不同 $\neq T^\prime)$ 。在NMT中，这种转换基于条件概率将一种语言的输入句子转换为另一种语言的输出句子 $p(y_1,...y_T^\prime|x_1, ...,x_T)$