26、基于语音转换的数据增强技术提升文本相关说话人验证性能-优快云博客

本文链接：https://blog.youkuaiyun.com/read5/article/details/151709426

基于语音转换的数据增强技术提升文本相关说话人验证性能

1 引言

说话人验证技术旨在确定测试语音是否确实由注册说话人发出。近年来，x - vectors 在说话人验证领域展现出了先进的成果，同时也涌现出了多种不同的骨干架构用于前端特征提取。在深度学习的说话人验证研究中，有许多公开免费的语音数据库可供使用。不过，在文本相关的说话人验证任务中，若要取得良好性能，通常需要大量的文本相关训练数据，而收集这些数据既耗费人力又耗时。

随着智能家居和物联网应用的兴起，对具有定制唤醒词的文本相关说话人验证需求大增，但为每个定制唤醒词收集相应的文本相关语音数据几乎是不可能的。近年来，多说话人文本转语音（TTS）和一对多或多对多语音转换（VC）系统生成的语音信号越来越难以与真人语音区分。因此，在训练数据有限的情况下，采用 TTS 或 VC 作为数据增强策略是很自然的选择。多说话人 TTS 系统虽能创建大量不同说话人的语音数据，但在文本相关的情况下，合成语音数据相似度较高。而 VC 系统能生成具有相同文本内容但风格多样的数据，所以更适合作为文本相关说话人验证的数据增强方法。

本文旨在提升在说话人和训练数据有限的情况下文本相关说话人验证系统的性能，具体场景包括：
- 每个说话人的训练数据有限，每个说话人的文本相关语音数量少于 10 条。
- 训练的说话人数量有限，说话人数量少于 500 个。

针对上述场景，我们提出用有限的现有文本相关数据训练语音转换模型，以生成更多新的文本相关数据。采用两种不同的语音转换方法作为数据增强系统，还采用音高偏移策略增加说话人数量，并尝试使用集外未见说话人的嵌入来生成文本相关数据。同时，为比较 TTS 和 VC 基于的数据增强方法，还训练了一个流行的单热多说话人 TTS 框架，并采用 ResNet34 - GSP 模型作为说话人验证系统来评估不同系统。

2 相关工作

2.1 说话人验证系统

采用的网络结构包含三个主要组件：前端模式提取器、编码器层和后端分类器。前端模式提取器采用 ResNet34 结构，学习输入声学特征的帧级表示。全局统计池化（GSP）层将可变长度的输入投影到固定长度的向量。全连接层的输出作为说话人嵌入层。采用 ArcFace 作为分类器，余弦相似度作为后端评分方法。

2.2 语音转换系统

Mel - to - Mel VC 系统 ：这是一个使用条件序列到序列神经网络框架和双说话人嵌入的多对多语音转换模型。该模型在许多不同的源 - 目标说话人对上进行训练，需要源说话人和目标说话人的说话人嵌入作为辅助输入。为提高参考语音和转换语音之间的说话人相似度，使用了反馈约束机制，在网络中添加辅助说话人身份损失。该模型直接将源说话人的 Mel 频谱图映射到目标说话人的 Mel 频谱图。
PPP - to - Mel VC 系统 ：首先使用基于 DNN 的自动语音识别（ASR）声学模型，在 AISHELL - 2 数据库上训练，以获得目标说话人的音素后验概率（PPP）特征作为语音转换模型的输入，模型输出目标 Mel 频谱图特征。在测试中，假设源 PPP 与目标 PPP 完全相同以生成结果。该系统架构与 Mel - to - Mel VC 系统类似，但没有反馈约束，且输入的 PPP 特征从有限的训练数据中随机选择。

两个语音转换系统的训练数据集使用情况如下表所示：
| 模型 | 数据集 | 训练说话人/语音数量 |
| — | — | — |
| ASV | HIMIA | 340/3060 |
| VC (PPP - to - Mel) | HIMIA | 340/3060 |
| VC (Mel - to - Mel) | HIMIA | 340/3060 |
| TTS | DIDI - speech | 500/53425 |

3 方法

3.1 预训练和微调

根据以往的工作，微调是在训练数据有限的情况下提高说话人验证系统性能的有效迁移学习方法。在这项工作中，使用大规模文本无关的混合数据集对深度说话人验证网络进行预训练，预训练数据集共有 3742 个说话人，包括 AISHELL - 2、SLR68 和 SLR62。模型在预训练阶段训练 200 个 epoch，初始学习率为 0.1，使用随机梯度下降（SGD）进行优化。在微调阶段，网络的所有权重保持可训练，初始学习率为 0.01。

3.2 基于 VC 系统的数据增强

两个 VC 系统的训练数据仅为 3060 条“你好，米亚”文本的语音。
- 使用 Mel - to - Mel VC 系统进行数据增强 ：训练 Mel - to - Mel VC 系统时，多对多语音转换模型的损失函数为：
[L_{total} = L_{mel \ before} + L_{mel \ after} + L_{stop \ token \ loss} + 5 * L_{embedding \ loss} + L_{regular \ loss}]
为使语音转换模型生成的语音的说话人嵌入接近目标说话人嵌入，将嵌入损失的权重增加到 5。训练完成后，为每个目标说话人生成 200 条语音，VC 输入的源语音从其他 339 个说话人的语音中随机选择。计算 VC 系统生成的嵌入与目标说话人嵌入的余弦相似度，保留相似度大于 0.6 的数据。对于集外未见说话人增强，以 3060 条有限的文本相关训练数据作为源语音，每个集外未见说话人有 20 条 VC 生成的文本相关语音，过滤掉余弦相似度小于 0.3 的生成数据。
- 使用 PPP - to - Mel VC 系统进行数据增强 ：PPP - to - Mel VC 增强方法的过程与 Mel - to - Mel VC 系统相同，损失函数与相关文献相同。在集内说话人增强场景中，采用词错误率（WER）和余弦相似度作为客观指标来衡量 VC 和 TTS 系统。每个 VC 系统生成 68000 条文本相关语音，与 Mel - to - Mel 系统相比，PPP - to - Mel 系统的平均说话人相似度更高，且在保留的语音数据中 WER 更低，因此在这些客观指标上，PPP - to - Mel 系统的语音质量更高。

不同系统在集内实验的 WER 和余弦相似度如下表所示：
| 模型 | 余弦相似度/语音数量（平均/全部） | 语音数量（相似度 > 0.6） | WER [%] |
| — | — | — | — |
| PPP - to - Mel(9utt) | 0.555/68000 | 26029 | 9.11 |
| Mel - to - Mel(9utt) | 0.510/68000 | 23100 | 10.28 |
| TTS (DiDi) | 0.475/10000 | 4263(>0.5) | - |

3.3 基于 TTS 系统的数据增强

我们还训练了一个单热多说话人 TTS 系统来生成增强数据。该系统基于 Tacotron - 2 并采用 GMMv2 注意力机制。对于多说话人建模，采用基于朴素嵌入表的策略，将通过模型优化学习到的 128 维嵌入连接到编码器的输出序列，以引导注意力机制和解码器获取目标说话人的信息。该模型在包含 500 个说话人的 DiDi - speech 数据库上进行训练，为每对目标说话人和所需关键词合成 20 条语音样本，这些样本具有相同的语音和词汇内容。

3.4 基于速度扰动的说话人增强

我们使用基于 SoX 速度函数的速度扰动方法，通过重采样来修改语音的音高和节奏。这种策略已成功应用于语音和说话人识别任务。通过创建原始信号的两个版本（速度因子分别为 0.9 和 1.1）来扩展有限的文本相关数据集。由于音高偏移后的语音样本被视为来自新的说话人，因此同时生成新的分类器标签。

下面是数据增强的流程 mermaid 图：

graph LR
    A[有限文本相关数据] --> B[预训练和微调]
    B --> C[VC 系统数据增强]
    B --> D[TTS 系统数据增强]
    B --> E[速度扰动说话人增强]
    C --> F[Mel - to - Mel VC 增强]
    C --> G[PPP - to - Mel VC 增强]

不同数据增强方法下文本相关说话人验证系统的性能如下表所示：
| 模型 | 训练数据 | 说话人/语音数量 | EER[%] | mDCF0.1 |
| — | — | — | — | — |
| 预训练模型 | AISHELL2 + SLR62 + SLR68 | 3472/518864 | 6.51 | 0.265 |
| 微调模型 9 Utts 每个说话人（基线系统） | HIMIA 9 条语音/说话人 | 340/3060 | 7.63 | 0.331 |
| + 音高偏移增强 | | 1020/9180 | 5.76 | 0.248 |
| + VC AUGin (Mel - to - Mel) | | 340/26160 | 6.36 | 0.304 |
| + VC AUGin (PPP - to - Mel) | | 340/29089 | 5.16 | 0.249 |
| + VC AUGout (Mel - to - Mel) | | 3210/48890 | 6.08 | 0.295 |
| + VC AUGin (Mel - to - Mel) + 音高偏移增强 | | 1020/76978 | 5.19 | 0.241 |
| + VC AUGin(PPP - to - Mel) + 音高偏移增强 | | 1020/87267 | 4.48 | 0.212 |
| + TTS (DiDi) | | 792/7323 | 6.01 | 0.292 |

实验结果表明，在训练数据有限的情况下，所提出的方法将等错误率（EER）从 6.51%显著降低到 4.48%，mDCF0.1 的性能也从 0.265 提高到 0.212。在没有音高偏移增强的情况下，VC AUGin (PPP - to - Mel) 在较少说话人的情况下比 TTS 增强的 EER 和 mDCF0.1 更低。由于 TTS 增强系统合成的语音句子语调相似，因此 VC 增强更适合文本相关说话人验证任务。此外，由于 PPP - to - Mel VC 系统合成语音的语音质量和说话人相似度优于 Mel - to - Mel VC 系统，使用 PPP - to - Mel VC 系统进行数据增强取得了更好的结果。不过，Mel - to - Mel VC 系统探索了集外未见说话人增强的方向并取得了一定的改进。结果显示，VC AUGin 方法是可行的，而 VC AUGout 方法仍需在未来进一步探索。

综上所述，本文提出的两种基于语音转换的数据增强方法能够有效提升在训练数据有限的情况下文本相关说话人验证系统的性能，VC - AUG 和音高偏移策略是可行且有效的。未来，我们将进一步探索针对未见甚至人工创建说话人的基于语音转换的数据增强方法和策略。

4 实验结果分析

4.1 不同数据增强方法的性能对比

为了更直观地展示不同数据增强方法对文本相关说话人验证系统性能的影响，我们对实验结果进行详细分析。从前面给出的表格可以看出，不同的数据增强策略在等错误率（EER）和最小检测成本函数（mDCF0.1）这两个评估指标上表现各异。

基线系统 ：使用原始的有限文本相关数据集（每个说话人 9 条语音）对预训练模型进行微调，系统性能出现明显下降，EER 达到 7.63%，mDCF0.1 为 0.331。这表明有限的训练数据无法充分训练说话人验证系统，导致系统在识别说话人时出现较高的错误率。
音高偏移增强 ：通过基于 SoX 速度函数的速度扰动方法扩展说话人数量后，系统的 EER 相对降低了 10%，达到 5.76%，mDCF0.1 也有所改善，为 0.248。这说明音高偏移策略能够在一定程度上增加训练数据的多样性，从而提升系统的性能。
VC 系统增强 ：
- Mel - to - Mel VC 系统 ：使用该系统进行数据增强后，EER 和 mDCF0.1 都有一定程度的改善。在集内说话人增强（VC AUGin）时，EER 为 6.36%，mDCF0.1 为 0.304；在集外未见说话人增强（VC AUGout）时，EER 为 6.08%，mDCF0.1 为 0.295。这表明 Mel - to - Mel VC 系统能够生成与目标说话人相似度较高的语音数据，对系统性能有积极影响。
- PPP - to - Mel VC 系统 ：该系统在数据增强方面表现更为出色，在集内说话人增强时，EER 降至 5.16%，mDCF0.1 为 0.249。与 Mel - to - Mel VC 系统相比，PPP - to - Mel VC 系统生成的语音在说话人相似度和语音质量上更优，因此能够更有效地提升系统性能。
TTS 系统增强 ：使用 TTS 系统进行数据增强后，EER 为 6.01%，mDCF0.1 为 0.292。虽然 TTS 系统能够生成大量的语音数据，但由于合成语音句子的语调相似，在文本相关说话人验证任务中的表现不如 VC 系统。

4.2 综合增强策略的优势

从实验结果还可以看出，采用综合的数据增强策略能够取得更好的效果。例如，将 VC AUGin (PPP - to - Mel) 和音高偏移增强相结合，系统的 EER 降至 4.48%，mDCF0.1 提高到 0.212，达到了所有实验设置中的最佳性能。这是因为不同的数据增强方法具有不同的特点，音高偏移策略能够增加说话人的多样性，而 VC 系统能够生成高质量的文本相关语音数据，两者结合可以充分发挥各自的优势，进一步提升系统的性能。

4.3 实验结果总结

通过对不同数据增强方法的实验结果进行分析，可以总结出以下几点：
- 在训练数据有限的情况下，单一的数据增强方法（如音高偏移、VC 系统或 TTS 系统）都能够在一定程度上提升文本相关说话人验证系统的性能。
- VC 系统在数据增强方面表现优于 TTS 系统，尤其是 PPP - to - Mel VC 系统，其生成的语音在说话人相似度和语音质量上更具优势。
- 综合使用多种数据增强方法（如 VC 系统和音高偏移增强）能够取得更好的效果，进一步降低 EER 和 mDCF0.1，提升系统的性能。

5 结论与展望

5.1 研究成果总结

本文提出了两种基于语音转换的数据增强方法，即 Mel - to - Mel VC 系统和 PPP - to - Mel VC 系统，并结合音高偏移策略，旨在提升在训练数据有限的情况下文本相关说话人验证系统的性能。实验结果表明，这些方法是可行且有效的，能够显著降低等错误率（EER），提高最小检测成本函数（mDCF0.1）的性能。具体而言，综合使用 VC AUGin(PPP - to - Mel) 和音高偏移增强策略，将 EER 从 6.51%降低到 4.48%，mDCF0.1 从 0.265 提高到 0.212。

5.2 未来研究方向

尽管本文的研究取得了一定的成果，但仍有许多方面值得进一步探索和改进：
- 未见或人工创建说话人的数据增强 ：目前的研究主要集中在使用已知说话人的数据进行增强，未来可以进一步探索如何利用未见甚至人工创建说话人的数据进行语音转换和数据增强。这将有助于扩大训练数据的范围，提高系统在更广泛场景下的性能。
- VC 系统的优化 ：虽然 PPP - to - Mel VC 系统在实验中表现较好，但仍有提升的空间。可以进一步研究如何优化 VC 系统的架构和损失函数，提高生成语音的质量和说话人相似度。
- 综合数据增强策略的优化 ：本文采用了 VC 系统和音高偏移增强相结合的综合策略，但还可以探索更多不同的数据增强方法组合，以找到最优的增强策略，进一步提升系统的性能。

5.3 应用前景

基于语音转换的数据增强技术在文本相关说话人验证领域具有广阔的应用前景。随着智能家居、物联网等领域的不断发展，对说话人验证系统的性能和安全性要求越来越高。本文提出的方法能够在训练数据有限的情况下有效提升系统的性能，为这些领域的应用提供了有力的支持。例如，在智能家居设备中，通过使用数据增强技术可以提高设备对用户语音的识别准确率，增强设备的安全性和用户体验。

以下是一个总结本文研究内容和未来方向的 mermaid 流程图：

graph LR
    A[研究背景：训练数据有限的文本相关说话人验证] --> B[提出方法：VC 系统和音高偏移增强]
    B --> C[实验结果：性能提升]
    C --> D[未来方向：未见或人工说话人增强、VC 系统优化、综合策略优化]
    D --> E[应用前景：智能家居、物联网等领域]

总之，基于语音转换的数据增强技术为解决训练数据有限情况下的文本相关说话人验证问题提供了一种有效的解决方案。未来的研究将进一步拓展该技术的应用范围和性能，为说话人验证领域的发展做出更大的贡献。