ICASSP 2018 | 基于深度卷积网络和引导性注意力机制的语音合成系统

最新推荐文章于 2025-06-12 09:17:45 发布

原创最新推荐文章于 2025-06-12 09:17:45 发布 · 659 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #论文

主流语音合成模型存在弊病，传统模型复杂，端到端模型训练成本高。本文提出DCTTS模型，由Text2Mel和SSRN构成，采用改进型attention机制。实验将其与Tacotron对比，虽合成质量有提升空间，但在使用CNN处理时序数据、降低训练时间上有新启示。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

现如今，语音合成已经被广泛地使用，但是主流模型都存在各种弊病。传统语音合成模型构成复杂，设计及使用对非专业人员不友好，基于神经网络的端到端语音合成模型，如Tacotron，采用seq2seq+attention结构，使用大量RNN单元，模型训练成本很高。本文提出一种结构类似于Tacotron结构却只由CNN的组成神经网络语音合成模型DCTTS，提高了训练效率并保持了合成效果在可接受的范围内。

论文地址:
https://arxiv.org/abs/1710.08969

DCTTS模型结构

DCTTS模型主要由两部分构成，Text2Mel和SSRN。Text2Mel 根据输入文本合成语音信号的梅尔谱。SSRN则是将梅尔谱转换成完整的短时傅里叶变换（STFT）幅度谱。模型结构图如下：
DCTTS模型结构图

1.Text2Mel 模块

主要由Text Encoder，Audio Encoder，Attention和Audio Decoder四部分组成。Text Encoder将文本序列编码成两个矩阵K和V。Audio encoder将输入的语音信号转换成梅尔谱，求得矩阵Q。将编码序列与attention机制结合作为Audio decoder的输入，解码产生合成信号的梅尔谱