TACOTRON-端到端的语音合成模型

最新推荐文章于 2024-09-25 16:57:28 发布

AI强仔

最新推荐文章于 2024-09-25 16:57:28 发布

阅读量2.1k

点赞数 1

文章标签：语音识别深度学习人工智能

本文介绍了TACOTRON，一个2017年的端到端文本到语音合成模型，旨在简化传统多步骤的语音合成系统。TACOTRON直接从文本字符生成语音，通过CBHG编码器提取文本信息，并使用内容基注意解码器生成声音。相较于多步骤模型，端到端模型更健壮，减少错误积累。实验结果显示，TACOTRON在性能上优于参数化方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 简介

本文根据2017年《TACOTRON: TOWARDS END-TO-END SPEECH SYNTHESIS》翻译总结的。如题所述，是一个端到端的语音合成模型。

一个文本到语音的合成系统通常包括多个步骤，包括文本分析、声学模型、声音合成模块等。建立这些单元通常需要广泛的专业领域知识，可能包含脆弱的设计选择。本文，我们呈现了一个端到端的生成模型TACOTRON，直接从文本字符生成语音。给定<text,audio（声音）>，模型可以直接完全训练。

另外，一个单独的端到端模型会比多步骤模型更加健壮，多步骤模型的每个单元错误可能复合。

2 相关工作

WaveNet 是一个非常好的语音合成模型，但它比较慢，因为其样本水平的自回归特性。同时其再TTS前，需要语言特征的条件，所以不太是端到端的。

3 模型结构

如下图，由左边部分的encoder、中间部分的decoder、后处理网络和波形生成构成。

在这里插入图片描述

3.1 CBHG

在这里插入图片描述

CBHG是从文本序列中提取表达信息，灵感来源于机器翻译。如上图，包括一组（bank）1-D卷积过滤器、highway layers、和bidirectional gated recurrent unit (GRU) (Chung et al., 2014) recurrent neural net (RNN)。highway layers提高高级别的特征。GRU RNN从两个方向（向前与向后）提取序列特征。

3.2 Encoder

Encoder是用来提取健壮的连续的文本表达。Encoder的输入是一个字符序列，其中每个字符用一个one-hot编码表达，然后embed到一个连续向量。然后应用一组非线性转换（我们陈为pre-net）到每个embedding。我们采用带有dropout的 bottleneck layer作为pre-net，这有助于收敛和提高泛化。CBHG将pre-net的输出转换为最终的encoder输出。

我们发现CBHG-based encoder 不仅减少了过拟合，而且比标准的多层RNN encoder产生较少的发音错误。