53、增量系统增强集成实现多语言场景下的说话人分割

最新推荐文章于 2025-11-09 13:57:30 发布

oo7890

最新推荐文章于 2025-11-09 13:57:30 发布

阅读量36

点赞数

CC 4.0 BY-SA版权

分类专栏： SPECOM 2023前沿之声文章标签：说话人分割 ECAPA-TDNN VoxCeleb SID

本文链接：https://blog.youkuaiyun.com/oo7890/article/details/151702424

SPECOM 2023前沿之声专栏收录该内容

59 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

增量系统增强集成实现多语言场景下的说话人分割

1 实验使用的模型

1.1 VoxCeleb SID

在实验中，使用了说话人识别（SID）X - 向量系统。它采用了比常规 X - 向量更小的深度神经网络（DNN），专门为说话人识别任务进行训练。
- 网络结构 ：前几层利用时间上下文，使每一帧能看到总共 15 帧的上下文信息。
- 特征提取 ：特征为 24 维滤波器组，帧长 25 毫秒，并在长达 3 秒的滑动窗口上进行均值归一化。
- 训练数据 ：该模型在 VoxCeleb I 和 II 数据集上进行训练，同时使用了 Room Impulse Response and Noise Database 和 MUSAN 数据集中的加性噪声和混响进行数据增强。

1.2 ECAPA - TDNN

受先前工作的启发，使用 ECAPA - TDNN 模型来提取增强的说话人嵌入。它是一种改进的 X - 向量模型，具有以下特点：
- 网络改进 ：包含 Res2 块以及通道和上下文相关的注意力池化，还使用了多层特征聚合（MFA）在统计池化之前合并互补信息。
- 数据增强 ：在训练过程中，对每个语音话语实时应用多种数据增强策略，如波形丢弃、频率丢弃、语音扰动、混响、添加噪声以及噪声与混响增强技术。
- 训练数据 ：使用 VoxCeleb I 和 VoxCeleb II 数据库进行训练，同样借助 Room Impulse Response and Noise Database 和 MUSAN 数据集进行增强。
- 输入输出 ：输入为在输入段上进行均值归一化的 80 维对数梅尔滤波器组能量，对于每个语音段，使用 1.5 秒的滑动窗口提取 192 维嵌入。在计算嵌入时，尝试了不同的跳跃大小，最佳的跳跃大小为 0.75 秒和 0.25 秒，分别称为 ECAPA - TDNN - 1 和 ECAPA - TDNN - 2。

2 聚类算法

在实验中尝试了不同类型的聚类技术，除了使用基线设置中的层次聚类（AHC），还尝试了谱聚类。
- 谱聚类原理 ：谱聚类是一种基于图的聚类技术，使用基于余弦相似度度量计算的亲和矩阵。对亲和矩阵进行增强并计算特征向量，对特征值进行阈值处理以确定说话人聚类的数量 k，顶部特征向量给出谱嵌入，通过 k - 均值聚类得到更可分离且明显不同的说话人聚类。
- 聚类方法选择 ：观察发现，如果聚类存在层次结构，AHC 效果更好；如果数据具有不形成全局结构的连接聚类，谱聚类更有用。

3 实验结果与讨论

3.1 实验设置与基线结果

挑战提供了开发数据集的基线结果，尽管挑战论文报告的误分割率（DER）为 32.60%，但在实际实现中观察到的 DER 为 40.24%，将其作为所有比较的基线。基线系统包含基于 UB - GMM 和 VB - HMM 的重分割模块作为可选元素，尝试将默认说话人转移概率设置为 0.45 来修改该模块。

3.2 不同系统组合的 DER

系统编号	系统描述	DER (%)
S1	BL SAD + X - vector + PLDA + AHC [1]	40.24
S2	BL SAD + X - vector + PLDA + AHC + VB - HMM	38.74
S3	Internal VAD + X - vector + PLDA + AHC	49.11
S4	BL SAD + X - vector + SC	51.49
S5	BL SAD + X - vector + PLDA + SC	37.67
S6	BL SAD + X - vector + PLDA + SC + VB - HMM	35.99
S7	BL SAD + X - vector + PLDA + SC	31.08
S8	BL SAD + VoxCeleb SID (0.25)	45.29
S9	BL SAD + VoxCeleb SID (0.25) + VB - HMM	38.23
S10	Silero VAD + ECAPA - TDNN - 1 + SC [6]	39.29
S11	Silero VAD + ECAPA - TDNN - 1 + SC + VB - HMM	39.02
S12	BL SAD + ECAPA - TDNN - 1 + SC	36.93
S13	BL SAD + ECAPA - TDNN - 1 + SC + VB - HMM	36.30
S14	BL SAD + ECAPA - TDNN - 2 + SC + VB - HMM	35.64

从表中可以看出，添加重分割模块有助于提高基线系统的 DER，这不仅适用于基线系统，对其他系统也同样有效。

3.3 聚类技术的增强效果

将 PLDA 和 AHC 模块替换为谱聚类时，与基线系统相比性能较差。研究发现，谱聚类算法的输入需要由分离良好的“连接组件”组成，因此在谱聚类之前加入 PLDA 块。从表 1 中的 DER 可以看出，对带有 PLDA 向量的 X - 向量应用谱聚类（S5）比仅使用 X - 向量（S4）有了显著改进。

3.4 说话人嵌入的可分离性研究

通过绘制 X - 向量、带有 PLDA 的 X - 向量、VoxCeleb SID 和 ECAPA - TDNN 嵌入的散点图，发现 X - 向量的说话人区分能力不足，PLDA 评分有助于提高 X - 向量的说话人分离能力，而 ECAPA - TDNN 在不使用 PLDA 的情况下就能实现最佳的说话人区分。

使用基于 TDNN 的语音活动检测（SAD）系统和 ECAPA - TDNN 在开发集上实现了 36.93%的 DER，与基线相比有一定改进。结合 VB - HMM 重评分，DER 进一步降低（S13 和 S14）。从表 1 还可以看出，所有基于 ECAPA - TDNN 的模型性能与 X - 向量 + PLDA + SC 方法几乎相当，并且滑动窗口跳跃周期 p = 0.25 秒比 p = 0.75 秒效果更好，因为小跳跃能更容易处理短语音话语。

3.5 语音活动检测

由于 DISPLACE 挑战数据是在远场条件下录制的，使用 DNN 预处理模型去除语音中的噪声或混响，然后使用在噪声增强的 Librispeech 数据上训练的长短期记忆网络（LSTM）语音活动检测（VAD）将语音分割为仅含语音的区域。

尝试用 Silero VAD 替换基于 TDNN 的 VAD，发现 Silero VAD 在高噪声和混响的语音中能提高性能，而 TDNN SAD 在干净语音中表现最佳。由于开发集包含的噪声语音较少，导致系统 S13 的整体性能下降。

4 不同数据集上的结果

4.1 开发集结果

开发集上不同实验的结果如表 1 所示，其中 S7 是模型 S5 的微调版本。由于该任务中开发数据集的数据条件差异较大，导致 DER 较高，因此使用开发集对模型 S5 的权重进行微调得到模型 S7。尽管微调后 DER 仍处于较高水平，但仍将系统 S7 作为实验中的竞争系统之一。

4.2 第一阶段评估结果

根据开发集的结果和观察，选择了四个模型 S13、S14、S11 和 S7 进行第一阶段评估，结果如下表所示：
| 系统编号 | 系统描述 | 开发集 DER (%) | 第一阶段评估 DER (%) | 第二阶段评估 DER (%) |
| — | — | — | — | — |
| S1 | BL X - vector + PLDA + AHC [1] | 40.24 | 39.60 | 32.50 |
| S13 | BL SAD + ECAPA - TDNN (p 0.75) + SC + VB - HMM | 36.30 | 28.11 | 29.45 |
| S14 | BL SAD + ECAPA - TDNN (p 0.25) + SC + VB - HMM | 35.64 | 29.67 | 28.85 |
| S11 | Silero SAD + ECAPA - TDNN (p 0.75) + SC + VB - HMM | 39.02 | 32.41 | 28.86 |
| S7 | BL SAD + X - vector + PLDA + SC | 31.08 | 31.84 | 29.87 |
| S15 | S13、S14、S11 和 S7 的融合 | NA | 27.67 | 28.7 |
| S16 | S14、S11 和 S7 的融合 | NA | 27.89 | 28.59 |

观察发现，Silero VAD 在噪声变化的情况下更稳健，并且在短窗口和小跳跃大小下表现良好。系统 S11 在处理非常短和嘈杂的语音时表现出色，而系统 S14 中使用小窗口跳跃大小计算的 ECAPA - TDNN 嵌入有助于更准确地检测说话人变化。将四个系统的输出进行融合，基于最大投票准则确定最终的说话人标签，如果四个系统没有给出相同的标签，则保留在开发集上表现最佳的系统 S7 的标签。融合后，DER 进一步降低至 27.70%。

4.3 第二阶段评估结果

为了进一步提高融合技术，在第二阶段评估中基于 DOVER 方法进行改进。DOVER - LAP 是一种在处理多个说话人重叠时合并多个说话人分割系统假设的方法，使用 DOVER - LAP S15 和 S16 系统根据在开发集上的留一法交叉验证性能选择的自定义权重来合并各个系统。

4.4 第一阶段评估后的分析

第一阶段评估完成后，对音频进行了详细分析。从表 3 中可以看到各个音频文件的 DER，部分文件的 DER 相对较低（如文件 B027），而有些文件的 DER 非常高（如文件 M050）。

通过观察文件 M007 和 M050 的散点图，发现 M007 中说话人分布清晰，DER 较低，且 X - 向量嵌入的 DER 相对低于 ECAPA - TDNN 嵌入；而 M050 录音噪声高，说话人嵌入重叠大，导致亲和矩阵质量下降，影响谱聚类性能，从而使 DER 较高。

另一方面，音频 B027 和 B035 是近场音频，噪声和混响相对较少，性别相关的说话人转换定义明确，同一性别内不同说话人的声音也有明显差异，且没有说话人重叠，每个说话人说话时间较长，这些因素有助于更好地区分不同说话人的嵌入，从而实现更好的说话人分割。

从表 2 可以看出，独立系统 S7 在开发集上表现较好，但在评估集上不如其他系统。进一步研究发现，开发集的音频大多干净，而评估集的音频在混响条件下噪声较多，这表明领域不匹配不仅体现在语言和口音上，还体现在噪声和混响方面。

从表 3 还可以看出，所有基线 VAD 系统在音频 M044 上表现不佳，而使用 Silero VAD 的系统 S11 表现更好，因为 M044 音频噪声极大，且由于近场和远场条件频繁切换，音高和响度变化很大，Silero VAD 能更好地处理这种情况。

5 总结

通过不同核心子模块（如 VAD、稳健的说话人嵌入和聚类方法）的不同组合实现了一个用于 DISPLACE 挑战第一赛道的系统，旨在实现多语言场景下的说话人分割。最佳系统是通过 DOVER - LAP 融合技术将不同系统组合而成，与基线相比有 30.05%的显著相对改进，使该系统在 DISPLACE 挑战的第一阶段和第二阶段均获得第二名。

虽然仍有改进空间，但这些结果很有前景。该系统在多语言和远场条件下，对性别特定转换的处理明显优于同性对话。开发集和评估集由于大量混响和嘈杂数据导致的不匹配增加了任务的挑战性，而使用在大型数据集上训练的模型有助于减少具有挑战性的声学条件下的数据不匹配问题。

6 技术亮点与操作步骤总结

6.1 模型训练与数据增强操作步骤

VoxCeleb SID 模型

数据准备 ：收集 VoxCeleb I 和 II 数据集，同时准备 Room Impulse Response and Noise Database 和 MUSAN 数据集中的加性噪声和混响数据用于增强。
特征提取 ：将音频处理为 24 维滤波器组特征，帧长设置为 25 毫秒，并在长达 3 秒的滑动窗口上进行均值归一化。
网络构建 ：构建比常规 X - 向量更小的 DNN 网络，前几层设置为利用时间上下文，使每一帧能看到总共 15 帧的上下文信息。
模型训练 ：使用准备好的数据对模型进行训练。

ECAPA - TDNN 模型

数据准备 ：同样使用 VoxCeleb I 和 VoxCeleb II 数据库，结合 Room Impulse Response and Noise Database 和 MUSAN 数据集进行数据增强。
特征提取 ：将音频转换为在输入段上进行均值归一化的 80 维对数梅尔滤波器组能量作为输入。
网络构建 ：构建包含 Res2 块、通道和上下文相关的注意力池化以及多层特征聚合（MFA）的网络结构。
数据增强 ：在训练过程中，对每个语音话语实时应用波形丢弃、频率丢弃、语音扰动、混响、添加噪声以及噪声与混响增强技术。
嵌入提取 ：使用 1.5 秒的滑动窗口提取 192 维嵌入，尝试不同的跳跃大小（0.75 秒和 0.25 秒）。

6.2 聚类算法操作流程

谱聚类

graph LR
    A[输入音频特征] --> B[计算余弦相似度亲和矩阵]
    B --> C[增强亲和矩阵]
    C --> D[计算特征向量和特征值]
    D --> E[特征值阈值处理确定聚类数量 k]
    E --> F[获取顶部特征向量得到谱嵌入]
    F --> G[k - 均值聚类得到说话人聚类]