现如今,语音合成已经被广泛地使用,但是主流模型都存在各种弊病。传统语音合成模型构成复杂,设计及使用对非专业人员不友好,基于神经网络的端到端语音合成模型,如Tacotron,采用seq2seq+attention结构,使用大量RNN单元,模型训练成本很高。本文提出一种结构类似于Tacotron结构却只由CNN的组成神经网络语音合成模型DCTTS,提高了训练效率并保持了合成效果在可接受的范围内。
论文地址:
https://arxiv.org/abs/1710.08969
DCTTS模型结构
DCTTS模型主要由两部分构成,Text2Mel和SSRN。Text2Mel 根据输入文本合成语音信号的梅尔谱。SSRN则是将梅尔谱转换成完整的短时傅里叶变换(STFT)幅度谱。模型结构图如下:
1.Text2Mel 模块
主要由Text Encoder,Audio Encoder,Attention和Audio Decoder四部分组成。Text Encoder将文本序列编码成两个矩阵K和V。Audio encoder将输入的语音信号转换成梅尔谱,求得矩阵Q。将编码序列与attention机制结合作为Audio decoder的输入,解码产生合成信号的梅尔谱
2.引导性attention
本文提出一种改进型attention机制,针对attention矩阵添加新的限制条件:
在TTS模型中,attention矩阵对角化代表着模型输入与输出序列有更好地对齐效果。如果attention矩阵不是对角化的,该限制条件则在损失函数中添加一个很大的惩罚值,以此帮助模型对齐。
3.SSRN 模块
将合成信号的梅尔谱转换为完整的短时傅里叶变换幅度谱
实验结果
实验数据来自 LJ Speech Dataset。本文使用MOS(mean opinion scores)作为合成评价指标,将DCTTS的语音合成结果与开源复现的Tacotron合成结果进行对比,实验结果如下:
结论
本文提出一种完全基于CNN的语音合成模型,并获得了可接受的语音合成质量。虽然语音合成质量仍有提高余地,本文在如何使用CNN处理时序数据,降低模型训练时间方面给了我们一些新的启示。