三点几嚟，饮茶先啦！PaddleSpeech发布全流程粤语语音合成

原创

已于 2023-04-03 14:45:24 修改 · 1.1k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #语音识别 #深度学习 #机器学习

于 2023-03-31 21:24:58 首次发布

PaddleSpeech的最新r1.4.0版本引入了中文wav2vec2.0fine-tune流程，提升了语音识别效率和准确性。此外，还提供了全流程粤语语音合成解决方案，包括前端处理、声学模型和声码器。更新还包括中英文语音识别模型conformer_talcs，支持混合语言识别。这些技术适用于智能客服、教育、语音助手和会议记录等领域。

PaddleSpeech 是飞桨开源语音模型库，其提供了一套完整的语音识别、语音合成、声音分类和说话人识别等多个任务的解决方案。近日，PaddleSpeech 迎来了重要更新——r1.4.0版本。在这个版本中，PaddleSpeech 带来了中文 wav2vec2.0 fine-tune 流程、升级的中英文语音识别以及全流程粤语语音合成等重要更新。接下来，我们将详细介绍这些更新内容以及亮点。

中文 wav2vec2.0 fine-tune

在r1.4.0版本中，我们实现了中文 wav2vec2.0 fine-tune 流程。wav2vec2.0 是一种基于自监督学习的语音特征提取方法，通过训练未标注的语音数据，学习到音频信号的有用表示。

wav2vec2.0 使用一个基于卷积神经网络（CNN）的编码器来提取语音特征，然后使用一个 Transformer 架构的上下文网络来捕捉特征之间的时序关系。在 fine-tune 阶段，通过添加一个线性分类层来适应中文语音识别任务。

wav2vec2.0 的主要组成部分

前处理

原始音频数据首先经过预处理，包括采样率转换、声道数调整等，以满足模型输入的要求。

特征提取器

对预处理后的音频数据进行特征提取，将其转换为适合模型输入的形式。wav2vec2.0 模型使用了一个卷积神经网络（CNN）作为特征提取器，将连续的音频数据转换为一系列的特征向量。

上下文网络

特征向量经过上下文网络进行处理，捕获不同时间步长之间的关联信息，上下文网络使用的是 Transformer 结构。

自监督学习

wav2vec2.0 采用自监督学习的方法进行训练，它使用了一个“掩码”策略，在输入数据中随机选择一些时间步长并将其置为均匀分布的随机 embedding 向量，然后训练模型去预测被掩码量化后的特征。这种方法允许模型在没有文本标注的情况下学习音频数据的内在结构。

线性分类器

在自监督学习的基础上，为了实现音频到文本的转换，模型在最后一层添加了一个线性分类器。这个分类器将上下文网络输出的特征向量映射到对应的 token。

通过这一流程，PaddleSpeech 能够在无需大量标注数据的情况下，提供高效准确的中文语音识别模型。在 PaddleSpeech 给出的 fine-tune 流程示例中，预训练模型基于 WenetSpeech Dataset ，使用 aishell1 数据集进行微调，在两块32G V100 上训练80个 Epoch ，batch size 设置为5，Encoder 使用 wav2vec2.0, Decoder 阶段使用 C