59、自监督说话人验证的聚类方法研究

最新推荐文章于 2025-11-23 14:29:31 发布

oo7890

最新推荐文章于 2025-11-23 14:29:31 发布

阅读量68

点赞数

CC 4.0 BY-SA版权

分类专栏： SPECOM 2023前沿之声文章标签：自监督学习说话人验证聚类方法

本文链接：https://blog.youkuaiyun.com/oo7890/article/details/151702435

SPECOM 2023前沿之声专栏收录该内容

59 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

自监督说话人验证的聚类方法研究

1. 背景与相关工作

在聚类领域，已经提出了多种方法。

1.1 经典聚类方法

经典的聚类模型包括 K - means、高斯混合模型（GMM）、变分 GMM、BIRCH、CURE、凝聚层次聚类（AHC）、分裂层次聚类（DHC）和迭代量化等。然而，这些方法不适合对数据的非线性结构进行建模，只能拟合数据表示之间的线性边界。

1.2 改进的聚类方法

后来，提出了谱聚类、基于核的聚类、多示例聚类和支持向量聚类（SVC）等方法来对数据的非线性进行建模。但它们在处理大型数据集时的可扩展性仍然是一个难题。

1.3 基于深度学习的聚类方法

近年来，利用深度神经网络强大的表示能力来对复杂数据的非线性进行建模，并能扩展到大型数据集。例如，深度嵌入式聚类（DEC）使用深度模型同时学习特征表示和聚类分配；DeepCWRN 方法采用自编码器同时学习特征表示和适合聚类的嵌入。此外，还有使用深度生成模型和高斯混合模型作为先验分布来对数据生成过程进行建模的方法。最近，DeepDPM 提出了一种分裂/合并框架，具有新颖的损失函数和动态架构，无需预定义聚类数量。

1.4 数据增强与相关方法

数据增强是正则化深度神经网络进行聚类和无监督表示学习的关键组成部分。IMSAT 直接对学习到的表示施加不变性。我们尝试在输出对数概率层利用 AUGMIX 增强技术，以提高聚类过程中对未见数据/聚类的鲁棒性和不确定性估计。此外，伪标签方法通过计算模型在所有增强上的预测类分布的平均值，然后应用温度锐化函数来最小化标签分布的熵。

2. 提出的聚类方法

我们提出的 CAMSAT 方法，在训练具有预定义聚类数量 C 的聚类模型 f 时，以端到端的方式对神经网络的输出预测施加数据增强不变性，同时最大化样本与其预测的离散表示（聚类分配）之间的信息论依赖关系。它最小化以下 $L_{CAMSAT}$ 目标：
$L_{CAMSAT} = L_{aug} + L_{IMSAT} + L_{symmetry}$
$= L_{aug} + R_{SAT} (θ, T_{VAT}) + λ(H(Y |X) - μH(Y)) + L_{symmetry}$

其中：
$L_{aug} = \frac{1}{N} \sum_{i = 1}^{N} KL(p_{aug_{r_i}}^i || p_i)$
$L_{symmetry} = \frac{1}{N} \sum_{i = 1}^{N} \frac{1}{|J|} \sum_{j \in {1, .., |J|}} KL(p_{aug_j}^i || p_m^i)$

$KL(.)$ 指的是 Kullback - Leibler 散度。$p_i = f(x_i) \in R^{1 \times C}$，$p_{aug_j}^i = f(x_{aug_j}^i)$，$p_m^i = \frac{1}{|J| + 1} [\sum_{j \in {1, .., |J|}} α_j p_{aug_j}^i + p_i]$ 分别对应数据样本 $x_i$、其增强版本 $x_{aug_j}^i$ 和所有可用 $x_{aug_j}^i$ 的预测混合。N 是数据（或小批量）的大小，$α_j \in [0, 1]$ 是对应于 $x_{aug_j}^i$ 的权重。

$L_{aug}$ 通过最小化增强样本和原始数据点预测之间的 KL 散度，使增强样本的预测表示接近原始数据点的预测表示。$H(.)$ 和 $H(.|.)$ 分别是边际熵和条件熵，它们的差表示样本输入 X 和标签 Y 之间的互信息，我们要最大化这个互信息。

$R_{SAT} (θ; T)$ 是一个损失项，它使用虚拟对抗训练（VAT）来进一步使增强样本的表示接近原始样本的表示，同时对网络的复杂性进行正则化以对抗局部扰动。超参数 $λ, μ \in R$ 分别控制模型复杂性正则化和互信息最大化之间的权衡，以及两个熵项之间的权衡。

$L_{symmetry}$ 目标函数利用各种增强视图提供的不同信号的平均/插值作为聚类过程中的额外监督信号，使聚类模型产生一致的特征表示，生成更紧凑的聚类。

3. 聚类算法与评估指标

3.1 聚类算法

为了研究我们方法的性能，我们探索了多种聚类算法，包括广泛使用的经典算法（GMM、变分 GMM、K - means、BIRCH、CURE、AHC、DHC）和 4 种基于深度学习的聚类模型（IMSAT、DEC、DeepCWRN、SOM）。我们使用 400 维的 i - 向量作为所有聚类算法的输入，以提高聚类效率并避免 MFCC 声学特征的高维度问题。

3.2 评估指标

为了全面分析伪标签（PLs）的质量以及它们与下游等错误率（EER）性能的关系，我们使用了 7 种有监督指标（无监督聚类准确率（ACC）、归一化互信息（NMI）、调整互信息（AMI）、完整性得分、同质性得分、纯度得分和 Fowlkes - Mallows 指数（FMI））和 3 种无监督指标（轮廓系数、Calinski - Harabasz 得分（CHS）和 Davies - Bouldin 得分（DBS））。这些指标可以评估聚类的准确性、互信息、同质性、完整性、纯度、精度和召回率，以及聚类的紧凑性和分散性。

以下是部分聚类方法和评估指标的关系表格：
| Model | Clustering Metrics | | | | | | | | | | Speaker Veriﬁcation |
| — | — | — | — | — | — | — | — | — | — | — | — |
| | ACC | AMI | NMI | No. of clusters | Completeness | Homogeneity | FMI | Purity | Silhouette | CHS | DBS | EER (%) |
| Supervised (True Labels) | 1.0 | 1.0 | 1.0 | 5994 | 1.0 | 1.0 | 1.0 | 1.0 | -0.006 | 31.708 | 4.692 | 1.437 |
| GMM (Full cov.) | 0.45 | 0.631 | 0.747 | 5000 | 0.767 | 0.728 | 0.312 | 0.566 | -0.015 | 39.266 | 4.673 | 5.143 |
| GMM (Full cov., l2Norm) | 0.504 | 0.678 | 0.789 | 5000 | 0.792 | 0.785 | 0.415 | 0.633 | -0.015 | 41.568 | 5.114 | 5.429 |
| KMeans | 0.302 | 0.468 | 0.591 | 5000 | 0.645 | 0.546 | 0.194 | 0.311 | -0.114 | 24.936 | 2.714 | 6.978 |
| DEC | 0.029 | 0.122 | 0.365 | 4911 | 0.386 | 0.345 | 0.007 | 0.036 | -0.084 | 8.734 | 7.266 | 11.957 |
| IMSAT | 0.393 | 0.491 | 0.649 | 4987 | 0.668 | 0.63 | 0.297 | 0.426 | -0.044 | 22.887 | 6.668 | 5.912 |
| AHC | 0.587 | 0.74 | 0.825 | 5000 | 0.841 | 0.81 | 0.311 | 0.684 | -0.01 | 39.561 | 4.991 | 3.685 |
| CAMSAT (S: 30k) | 0.614 | 0.746 | 0.829 | 4993 | 0.843 | 0.816 | 0.557 | 0.636 | -0.033 | 1.001 | 25.239 | 3.812 |
| CAMSAT (l2Norm, S: 20k) | 0.655 | 0.812 | 0.874 | 4596 | 0.888 | 0.86 | 0.641 | 0.675 | -0.105 | 0.999 | 26.561 | 3.065 |
| CAMSAT (l2Norm, S: 20k, C: 10k) | 0.709 | 0.83 | 0.889 | 6364 | 0.892 | 0.886 | 0.708 | 0.745 | -0.141 | 1.0 | 21.656 | 3.134 |

4. 实验结果与讨论

4.1 实验设置

为了评估我们提出的聚类方法和生成的 PLs 在自监督说话人验证中的性能，我们基于 VoxCeleb2 数据集进行了一组实验。训练嵌入网络使用了 VoxCeleb2 数据集的开发子集，评估按照 VoxCeleb1 试验列表进行。实验中使用的声学特征是 40 维的梅尔频率倒谱系数（MFCCs）。我们使用 AAMSoftmax 目标来训练自监督说话人嵌入网络，并使用余弦相似度作为验证评分的后端。

4.2 实验参数

我们使用与 IMSAT 相同的基于 MLP 的 d - S - S - C 架构，使用 RELU 作为所有隐藏层的激活函数，对隐藏层应用批量归一化，并在输出层使用 softmax。优化使用动量算法，初始学习率为 0.01，动量为 0.9，指数衰减率为 0.996。$λ = 0.5$，$μ = 3.5$。默认批量大小为 10240 个样本，聚类数量 $C = 5000$，网络宽度 $S = 5200$ 个神经元，运行 100 个 epoch。

4.3 数据增强

我们使用了波形级的数据增强，包括加性噪声和房间脉冲响应（RIR）模拟。对于基于 ECAPA - TDNN 的系统，还对提取的 MFCC 特征应用了类似于 specaugment 的增强。此外，我们还对所有增强的 i - 向量添加了轻高斯噪声，使用掩码增强，并混合增强输入。

4.4 实验结果

从实验结果来看，CAMSAT 方法在所有有监督和无监督聚类指标上都远远优于其他基线方法。例如，无监督聚类准确率从 AHC 基线的 60.2% 和 IMSAT 的 39.3% 提高到了 70.9%。使用 CAMSAT 生成的 PLs 训练嵌入系统，下游 SV EER 性能从 3.621% 提高到了 3.065%。

4.5 消融实验

通过大规模的消融实验，我们分析了所有组件的贡献和一组因素的影响，包括批量大小、模型大小、预定义的聚类数量、数据归一化类型、标签平滑、提出的增强、丢弃率等。结果表明，CAMSAT 目标中的所有损失项之间存在互补信息，每个损失项都有助于提高整体聚类框架的性能。

4.6 距离度量实验

我们尝试使用不同的距离度量进行优化，结果表明 KL 散度仍然是我们框架中最好的距离度量。此外，在 CAMSAT 架构的输出中加入 AAMSoftmax 损失，并使用在线生成的伪标签进行训练，取得了不错的结果。

以下是使用不同距离度量的实验结果表格：
| Distance Metric | Clustering Metrics | | | | | | | | | | Speaker Veriﬁcation |
| — | — | — | — | — | — | — | — | — | — | — | — |
| | ACC | AMI | NMI | No. of clusters | Completeness | Homogeneity | FMI | Purity | Silhouette | CHS | DBS | EER (%) |
| KL divergence | 0.528 | 0.702 | 0.805 | 5000 | 0.809 | 0.801 | 0.485 | 0.608 | -0.026 | 1.001 | 25.465 | 4.608 |
| JS divergence | 0.376 | 0.541 | 0.706 | 4994 | 0.702 | 0.71 | 0.317 | 0.441 | -0.014 | 1.001 | 25.1 | 6.267 |
| Cosine distance | 0.308 | 0.411 | 0.612 | 4897 | 0.616 | 0.609 | 0.259 | 0.335 | -0.095 | 1.002 | 25.198 | 6.4 |
| L2 loss | 0.251 | 0.385 | 0.564 | 4895 | 0.59 | 0.541 | 0.134 | 0.275 | -0.132 | 0.998 | 23.428 | 8.754 |
| AAMSoftmax | 0.314 | 0.524 | 0.676 | 4729 | 0.691 | 0.661 | 0.251 | 0.361 | -0.119 | 1.001 | 24.811 | 9.046 |
| Squared Earth Mover’s distance | 0.051 | 0.127 | 0.407 | 4996 | 0.416 | 0.399 | 0.014 | 0.063 | -0.06 | 0.998 | 25.638 | 18.627 |
| Sinkhorn distance | 0.018 | 0.052 | 0.331 | 4995 | 0.346 | 0.317 | 0.002 | 0.023 | -0.083 | 1.001 | 23.661 | 12.275 |

综上所述，我们提出的 CAMSAT 方法在自监督说话人验证的聚类任务中表现出色，通过多种实验和分析，证明了其有效性和优越性。未来可以进一步改进聚类模块，以获得更好的自监督说话人识别性能。

4.7 实验结论总结

通过上述一系列实验，我们可以得出以下结论：
- 性能优越性 ：CAMSAT 方法在聚类性能和下游说话人验证（SV）的等错误率（EER）性能上均显著优于其他对比方法。在聚类准确率方面，相比 AHC 和 IMSAT 有大幅提升；在 EER 方面，也实现了明显的降低。
- 损失项互补性 ：CAMSAT 目标中的各个损失项（$L_{aug}$、$R_{SAT}$、$L_{symmetry}$等）之间存在互补信息，共同作用提升了整体聚类框架的性能。
- 距离度量选择 ：在多种距离度量中，KL 散度是最适合 CAMSAT 框架的选择，能带来更好的聚类效果。
- 数据处理重要性 ：对 i - 向量独立进行单位 l2 - 范数归一化有助于避免丢失说话人信息，进一步提高系统性能，说明数据归一化方式对结果有重要影响。

4.8 实验流程总结

整个实验过程可以用以下 mermaid 流程图表示：

graph LR
    A[数据准备] --> B[数据增强]
    B --> C[选择聚类算法]
    C --> D[设置实验参数]
    D --> E[模型训练]
    E --> F[评估指标计算]
    F --> G[结果分析]

具体操作步骤如下：
1. 数据准备 ：使用 VoxCeleb2 数据集的开发子集进行训练，按照 VoxCeleb1 试验列表进行评估，提取 40 维的 MFCC 声学特征。
2. 数据增强 ：采用波形级数据增强（加性噪声、RIR 模拟），对 ECAPA - TDNN 系统的 MFCC 特征应用类似 specaugment 的增强，对增强的 i - 向量添加轻高斯噪声、使用掩码增强和混合增强输入。
3. 选择聚类算法 ：对比多种经典和基于深度学习的聚类算法，使用 400 维的 i - 向量作为输入。
4. 设置实验参数 ：使用基于 MLP 的 d - S - S - C 架构，设置激活函数、归一化方法、优化算法和超参数（$λ$、$μ$、批量大小、聚类数量、网络宽度、epoch 数等）。
5. 模型训练 ：使用设置好的参数和增强后的数据对模型进行训练。
6. 评估指标计算 ：计算有监督和无监督聚类指标（ACC、NMI、AMI 等）以及下游 SV 的 EER 性能。
7. 结果分析 ：通过对比不同算法的结果，进行消融实验和距离度量实验，分析各组件和因素对性能的影响。

5. 总结与展望

5.1 研究成果总结

本文提出的 CAMSAT 方法在自监督说话人验证的聚类任务中展现出了卓越的性能。通过在 VoxCeleb2 数据集上的实验，我们验证了该方法在聚类准确率和下游 SV EER 性能上的显著提升。具体表现如下：
- 聚类性能提升 ：在所有有监督和无监督聚类指标上大幅超越其他基线方法，无监督聚类准确率得到显著提高。
- 下游性能改善 ：使用 CAMSAT 生成的伪标签训练嵌入系统，有效降低了下游 SV 的 EER 性能。
- 组件分析明确 ：通过消融实验，明确了各个组件和因素对聚类性能的影响，证明了损失项之间的互补性和数据处理方式的重要性。

5.2 未来研究方向

尽管 CAMSAT 方法取得了良好的效果，但仍有一些方面可以进一步探索和改进：
- 聚类模块优化 ：可以尝试改进聚类模块的架构和算法，以进一步提高聚类的准确性和稳定性。
- 数据增强策略拓展 ：探索更多的数据增强策略，提高模型对不同环境和数据变化的鲁棒性。
- 结合其他技术 ：考虑将 CAMSAT 方法与其他先进的机器学习技术相结合，如注意力机制、生成对抗网络等，以提升整体性能。
- 应用场景拓展 ：将该方法应用到更多的说话人验证场景中，如安防监控、智能家居等，验证其在不同场景下的有效性。

总之，自监督说话人验证的聚类方法研究具有重要的理论和实际意义，CAMSAT 方法为该领域的发展提供了一种有效的解决方案，未来的研究有望进一步推动该领域的进步。

以下是本文涉及的主要技术点总结表格：
| 技术点 | 描述 |
| — | — |
| CAMSAT 方法 | 对神经网络输出预测施加数据增强不变性，最大化样本与预测离散表示的信息论依赖关系 |
| 损失函数 | $L_{CAMSAT} = L_{aug} + R_{SAT} + λ(H(Y |X) - μH(Y)) + L_{symmetry}$ |
| 聚类算法 | 经典算法（GMM、K - means 等）和基于深度学习的算法（IMSAT、DEC 等） |
| 评估指标 | 有监督指标（ACC、NMI 等）和无监督指标（轮廓系数、CHS 等） |
| 数据增强 | 波形级增强、MFCC 特征增强、添加高斯噪声、掩码增强等 |
| 距离度量 | KL 散度、JS 散度、余弦距离等 |