Tacotron2论文阅读笔记

介绍Tacotron2结合WaveNet优化版的全神经TTS系统,简化声学特征产生步骤,直接从字符序列预测Mel谱图,再通过优化的WaveNet生成高质量音频。系统采用注意力机制循环序列到序列网络预测Mel谱图,优化的WaveNet从Mel谱图生成时域波形。

Tacotron2

NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAM PREDICTIONS论文阅读笔记

先推荐一篇比较好的翻译,但不完整机器之心Tacotron2

简介
  1. 历史回顾:

    • 前期方法:级联合成 、统计参量
    • 特点:低沉不自然
    • 方法:Wavenet 时域波形生成模型
    • 特点:音质提高但是输入繁杂
  2. Tacotron2

    • seq2seq 从字符序列到soectrograms,简化了语言声学特征产生的步骤

    • vocoder : tacotron1–使用短时傅立叶逆变换 < wavenet

    • 对比其余网络: Deep Voice3–主观评估低 Char2Wav–使用传统的中间表示形式

模型简介
  • 系统组件:

    1. ​ 注意力机制循环序列到序列特征预测network – 从字符序列预测mel谱图
    2. ​ Wavenet优化版本 – 基于mel谱图生成时域波形样本
  • 中间特征代表选择

    1. mel蘋谱图:在较低的频率中强调细节;使用低频率细节,不强调摩擦音和噪声突发所站主导地位的高频细节。
    2. 选择原因:线性频谱图会丢失相位信息,griffinlim(tacotron1)可以估计该丢弃信息,并且进行短时傅立叶逆变换进行时域转换;mel频谱图会丢弃更多信息,但是与其他声学或者语言特征相比,mel铺图失忆症更简单的低级声学表示,改进的wavenet框架可以从mel频谱中生成高质量的音频
  • 频谱图预测网络

    1. 模仿tacotron1,使用50ms帧12.5ms帧跳和Hann窗函数的傅立叶变换;使用5ms帧跳进行试验,以匹配原始wavenet中的条件输入的频率,时间分辨率的提高导致了发音问题增多

    2. 使用125HZ to 7.6kHz 80通道的mel滤波器组将STFT幅度转化为mel标度,之后进行对数动态范围压缩(取log)

    3. 网络结构

      • 编码器 --将字符序列转换为隐藏的特征表示形式
      • 解码器 --解析隐藏特征表示形式以预测频谱图
    4. WaveNet Vocoder

预测网络详细介绍
  • 编码器

    1. 输入字符:学习的512维字符嵌入表示,字符序列经过3层每层512个5*1的过滤器的卷积层,即每个过滤器跨越5个字符,之后批归一化(batch )和RELU激活函数;卷积层对上下文进行建模,最终输出传递到包含512个单位的单个双向LSTM层(前后两个方向各256个)
    2. 编码器
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值