Tacotron2--语音合成

最新推荐文章于 2024-07-29 11:47:41 发布

翻译最新推荐文章于 2024-07-29 11:47:41 发布 · 2.6k 阅读

文章标签：

#语音识别

人工智能同时被 3 个专栏收录

151 篇文章

订阅专栏

语音识别

15 篇文章

订阅专栏

语音合成

5 篇文章

订阅专栏

本文介绍Tacotron2，一种直接从文本生成高质量语音的神经网络模型。它由两个主要部分组成：一个用于生成mel-scale频谱的特征预测网络和一个用于将这些频谱转换成波形的WaveNet语音合成器。

部署运行你感兴趣的模型镜像

1 简介

本文根据2018年《NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAM PREDICTIONS》翻译总结的。通过标题可以看出来Tacotron 2包括Tacotron 和WAVENET。

Tacotron 2是一个可以直接从文本合成语音的神经网络模型。有两部分构成，第一部分是循环序列到序列的特征预测网络，其将字符embedding转换为mel-scale 频谱（SPECTROGRAM）；第二部分是修改的WaveNet模型，其作为语音合成器，将mel-scale 频谱合成为时域的波形（waveform）。这两部分别进行训练。

2 模型结构

下图蓝色部分encoder加橙色部分decoder是第一部分，即循环序列到序列的特征预测网络，mel-scale 频谱（SPECTROGRAM）预测网络；绿色部分是第二部分，修改的WaveNet模型。我们使用mel- frequency spectrograms 连接两部分模型。
在这里插入图片描述

2.1 中间特征-- mel-scale 频谱（SPECTROGRAM）

我们使用mel- frequency spectrograms 连接两部分模型。
mel- frequency spectrograms和linear- frequency spectrograms相关的，即 short-time Fourier transform (STFT)。灵感来自于人类听觉系统，用较少的维度去总结frequency，强度低frequency，不强调高frequency。

2.2 mel-scale 频谱（SPECTROGRAM）预测网络

包括encoder和带注意力的decoder。
Decoder是一个自回归循环神经网络。
使用的 location-sensitive attention，其扩展了相加attention机制，使用来自前一个decoder time steps的累计attention权重。
在pre-net之前和之后，最小化summed mean squared error (MSE)，帮助收敛。
增加了“stop token”预测。
相比原来的tacotron，我们在encoder和decoder中使用 vanilla LSTM and convolutional layers，而不是“CBHG” stacks and GRU recurrent layers。