Tacotron2论文阅读笔记

最新推荐文章于 2024-05-11 11:15:00 发布

原创

最新推荐文章于 2024-05-11 11:15:00 发布 · 880 阅读

CC 4.0 BY-SA版权

文章标签：

介绍Tacotron2结合WaveNet优化版的全神经TTS系统，简化声学特征产生步骤，直接从字符序列预测Mel谱图，再通过优化的WaveNet生成高质量音频。系统采用注意力机制循环序列到序列网络预测Mel谱图，优化的WaveNet从Mel谱图生成时域波形。

Tacotron2

先推荐一篇比较好的翻译，但不完整机器之心Tacotron2

历史回顾：
- 前期方法：级联合成、统计参量
- 特点：低沉不自然
- 方法：Wavenet 时域波形生成模型
- 特点：音质提高但是输入繁杂
Tacotron2
- seq2seq 从字符序列到soectrograms，简化了语言声学特征产生的步骤
- vocoder : tacotron1–使用短时傅立叶逆变换 < wavenet
- 对比其余网络： Deep Voice3–主观评估低 Char2Wav–使用传统的中间表示形式

系统组件：
1. 注意力机制循环序列到序列特征预测network – 从字符序列预测mel谱图
2. Wavenet优化版本 – 基于mel谱图生成时域波形样本
中间特征代表选择
1. mel蘋谱图：在较低的频率中强调细节；使用低频率细节，不强调摩擦音和噪声突发所站主导地位的高频细节。
2. 选择原因：线性频谱图会丢失相位信息，griffinlim(tacotron1)可以估计该丢弃信息，并且进行短时傅立叶逆变换进行时域转换；mel频谱图会丢弃更多信息，但是与其他声学或者语言特征相比，mel铺图失忆症更简单的低级声学表示，改进的wavenet框架可以从mel频谱中生成高质量的音频
频谱图预测网络
1. 模仿tacotron1,使用50ms帧12.5ms帧跳和Hann窗函数的傅立叶变换；使用5ms帧跳进行试验，以匹配原始wavenet中的条件输入的频率，时间分辨率的提高导致了发音问题增多
2. 使用125HZ to 7.6kHz 80通道的mel滤波器组将STFT幅度转化为mel标度，之后进行对数动态范围压缩（取log）
3. 网络结构
  - 编码器 --将字符序列转换为隐藏的特征表示形式
  - 解码器 --解析隐藏特征表示形式以预测频谱图
4. WaveNet Vocoder

编码器
1. 输入字符：学习的512维字符嵌入表示,字符序列经过3层每层512个5*1的过滤器的卷积层，即每个过滤器跨越5个字符，之后批归一化（batch ）和RELU激活函数；卷积层对上下文进行建模，最终输出传递到包含512个单位的单个双向LSTM层（前后两个方向各256个）
2. 编码器