ICASSP 2018 | 基于深度卷积网络和引导性注意力机制的语音合成系统

主流语音合成模型存在弊病,传统模型复杂,端到端模型训练成本高。本文提出DCTTS模型,由Text2Mel和SSRN构成,采用改进型attention机制。实验将其与Tacotron对比,虽合成质量有提升空间,但在使用CNN处理时序数据、降低训练时间上有新启示。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

现如今,语音合成已经被广泛地使用,但是主流模型都存在各种弊病。传统语音合成模型构成复杂,设计及使用对非专业人员不友好,基于神经网络的端到端语音合成模型,如Tacotron,采用seq2seq+attention结构,使用大量RNN单元,模型训练成本很高。本文提出一种结构类似于Tacotron结构却只由CNN的组成神经网络语音合成模型DCTTS,提高了训练效率并保持了合成效果在可接受的范围内。

论文地址:
https://arxiv.org/abs/1710.08969

DCTTS模型结构

DCTTS模型主要由两部分构成,Text2Mel和SSRN。Text2Mel 根据输入文本合成语音信号的梅尔谱。SSRN则是将梅尔谱转换成完整的短时傅里叶变换(STFT)幅度谱。模型结构图如下:
DCTTS模型结构图

1.Text2Mel 模块

主要由Text Encoder,Audio Encoder,Attention和Audio Decoder四部分组成。Text Encoder将文本序列编码成两个矩阵K和V。Audio encoder将输入的语音信号转换成梅尔谱,求得矩阵Q。将编码序列与attention机制结合作为Audio decoder的输入,解码产生合成信号的梅尔谱

2.引导性attention

本文提出一种改进型attention机制,针对attention矩阵添加新的限制条件:

在TTS模型中,attention矩阵对角化代表着模型输入与输出序列有更好地对齐效果。如果attention矩阵不是对角化的,该限制条件则在损失函数中添加一个很大的惩罚值,以此帮助模型对齐。

3.SSRN 模块

将合成信号的梅尔谱转换为完整的短时傅里叶变换幅度谱

实验结果

实验数据来自 LJ Speech Dataset。本文使用MOS(mean opinion scores)作为合成评价指标,将DCTTS的语音合成结果与开源复现的Tacotron合成结果进行对比,实验结果如下:
不同模型语音合成试验结果
15小时DCTTS模型语音合成结果

结论

本文提出一种完全基于CNN的语音合成模型,并获得了可接受的语音合成质量。虽然语音合成质量仍有提高余地,本文在如何使用CNN处理时序数据,降低模型训练时间方面给了我们一些新的启示。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值