Generate speech at the frame level
统计参数TTS:
文本前端:提取语言特征
声学特征预测模型
基于信号处理的声音合成器
优点:
减轻了复杂的工作
可以应对复杂的条件和多种情况(语者,语种,情感)
相较多阶段模型,鲁棒性更高
TTS:解压(文字->声音),输出是连续的,输出序列会比输入序列要长的多
Tacotron:端到端生成式TTS模型,基于seq2seq
输入:字符串
输出:声谱图(spectrogram)
转接入Griffin-Lim重建算法来合成语音
前人工作:
WaveNet:
语音生成模型,慢(由于样本级的自回归)
不是端到端的:需要由TTS前端产生的语言学特征作为条件
DeepVoice:
将传统TTS流水线的每一个部分用对应的神经网络取代
每一个部分独立训练
Wang's Work:
最早使用seq2seq with attention做端到端的TTS
需要一个预训练的HMM(Hidden Markov Model)校准器使seq2seq模型学会对齐
训练模型时使用了小技巧
需要一个声音合成器
基于音素输入做训练,实验结果有限
Char2Wav:
端到端模型
seq2seq和SampleRNN需要分别预训练
模型结构:
核心:
seq2seq model with attention
Encoder
Attention-based Decoder
Post-processing Net
CBHG(modified model for machine translation):
1-D Conv

TACONTRON是一种全端到端的文本转语音(TTS)模型,采用seq2seq结构,输入为字符串,输出为声谱图。与传统的TTS系统相比,它简化了流程,提高了鲁棒性,能够应对多种情况。模型包括CBHG模块、注意力机制的解码器和后处理网络,通过Griffin-Lim算法合成语音。相比WaveNet和DeepVoice等模型,TACONTRON更强调端到端的生成能力。
最低0.47元/天 解锁文章
3873

被折叠的 条评论
为什么被折叠?



