52、多语言场景下语音识别与说话人分割技术研究

最新推荐文章于 2025-12-01 14:37:55 发布

oo7890

最新推荐文章于 2025-12-01 14:37:55 发布

阅读量33

点赞数

CC 4.0 BY-SA版权

分类专栏： SPECOM 2023前沿之声文章标签：语音识别说话人分割多语言场景

本文链接：https://blog.youkuaiyun.com/oo7890/article/details/151702421

SPECOM 2023前沿之声专栏收录该内容

59 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

多语言场景下语音识别与说话人分割技术研究

在当今数字化时代，语音技术在各个领域的应用愈发广泛，如语音识别、说话人分割等。然而，在多语言、复杂环境下，这些技术面临着诸多挑战。本文将介绍两种相关技术的研究成果，分别是基于对抗训练的层次注意力网络用于领域不变的口语语言识别，以及针对代码切换的真实生活音频的鲁棒说话人分割系统。

1. 基于对抗训练的口语语言识别

1.1 AMTL对性能的影响

研究人员使用结合了Ekstep - TVnews和Readspeech - DS的组合训练数据集来训练系统，考虑的领域数量为2。尽管这两个数据集都包含新闻广播样本，但在背景噪音和语音方式上存在显著的领域不匹配。

基线的LID系统（基于x - vector和u - vector）使用AMTL进行训练，包含主语言分类器和辅助领域分类器，分别称为x - vec - AMTL - Net和u - vec - AMTL - Net。提出的基于Transformer的LID系统，即u - vec - HA - AMTL - Net，其Transformer解码器同样使用主语言分类器和辅助领域分类器，所有超参数通过实验调整。

从表5的结果可以看出，与未使用AMTL的情况相比，包含AMTL在所有情况下都带来了轻微的性能提升。因为AMTL迫使系统学习领域不变的表示，所以使用AMTL训练的系统表现更好。而且，即使在未见测试集上，提出的u - vec - HA - AMTL - Net的性能也明显优于基线LID系统。

LID系统	可见测试集（准确率，EER）	未见测试集（准确率，EER）
x - vec - AMTL - Net	84.66%，8.46%	64.62%，19.70%
u - vec - AMTL - Net	86.56%，7.23%	66.11%，18.88%
u - vec - HA - AMTL - Net	88.04%，6.43%	70.33%，16.47%

1.2 合理领域多样性的训练数据集

由于Ekstep - DS实际上包含从多个领域收集的语音样本，研究人员用Ekstep - Multi - Domain替换Ekstep - TVnews来训练系统，以评估在具有更好领域多样性的训练数据集下LID系统的性能。使用Ekstep - Multi - Domain和Readspeech - DS作为训练数据集，YouTube - DS作为未见测试集。

从表6的结果来看，在这种情况下，包含AMTL的作用不太明显。因为训练数据集具有合理的领域多样性，所有LID系统都能很好地泛化，并且与低领域多样性训练的系统相比性能更好。在使用AMTL训练的三个系统中，提出的u - vec - HA - AMTL - Net表现最佳。

LID系统	可见测试集（准确率，EER）	未见测试集（准确率，EER）
x - vec - Net	83.63%，8.86%	60.27%，22.15%
u - vec - Net	85.23%，8.24%	63.59%，20.23%
u - vec - HA - Net	87.47%，6.88%	68.48%，17.76%
x - vec - AMTL - Net	85.34%，8.09%	65.49%，19.03%
u - vec - AMTL - Net	87.56%，6.86%	66.92%，17.96%
u - vec - HA - AMTL - Net	89.57%，6.12%	71.68%，15.52%

2. 代码切换的真实生活音频中的说话人分割

2.1 研究背景与挑战

在多语言场景下，识别重叠多说话人对话中的单个说话人话语是说话人分割中的一个具有挑战性的问题。标准的说话人分割系统由语音活动检测器、说话人嵌入提取器和聚类组成。然而，在嘈杂、语音重叠以及多语言代码切换的情况下，现有的方法面临诸多挑战。

2.2 DISPLACE挑战概述

DISPLACE挑战旨在自动检测和标记每个对话中的所有说话人或语言片段，分为两个赛道。本次研究参与的Track - 1专注于多语言场景下的说话人分割。

挑战数据集包括开发集和评估集，均为真实生活中的多语言、多说话人对话。评估分两个阶段进行，数据包含自然的代码混合、代码切换、各种语言方言、混响、远场效应、说话人重叠、短轮次和短停顿等情况。评估指标为说话人分割错误率（DER），计算公式为：
[ DER = \frac{D_{FA} + D_{miss} + D_{error}}{D_{total}} ]
其中，(D_{FA})是错误检测的非语音总时长，(D_{miss})是错误检测的语音时长，(D_{error})是错误的说话人标签时长，(D_{total})是给定话语中的总语音时长。

2.3 说话人分割系统

核心系统 ：说话人分割基线的核心与第三届DIHARD语音分割挑战类似，包括语音活动检测、前端特征提取、X - vector提取、PLDA评分和AHC聚类。SAD是基于Kaldi Aspire配方的TDNN模型，提取的X - vectors通过AHC进行聚类，并使用VB - HMM和UBM - GMM进行标签细化。
语音活动检测（SAD） ：研究人员实验了基线系统中基于TDNN的SAD、Silero VAD和基于LSTM的VAD。Silero VAD在大量数据上训练，使用CNNs和transformers，在具有挑战性的嘈杂条件下，在精度和召回率方面表现优于传统VAD方法。基于LSTM的VAD在帧级预测语音或非语音决策，并进行后处理以去除不合理的短语音/静音片段。
说话人嵌入 ：除了基线中使用的X - vector，还尝试了用于说话人验证任务的改进X - vector，特别是受先前工作启发的改进ECAPA - TDNN嵌入。X - vector在增强了加性噪声和混响的Voxceleb数据集上训练，是512维的向量嵌入，每1.5秒计算一次，移动步长为0.25秒。

下面是说话人分割系统的流程：

graph TD;
    A[音频数据] --> B[语音活动检测];
    B --> C[前端特征提取];
    C --> D[X - vector或ECAPA - TDNN嵌入提取];
    D --> E[PLDA评分];
    E --> F[AHC聚类];
    F --> G[标签细化（VB - HMM和UBM - GMM）];
    G --> H[最终说话人分割结果];

综上所述，这些研究在多语言、复杂环境下的语音识别和说话人分割方面取得了一定的成果，为相关技术的发展提供了有价值的参考。

2.4 系统改进与实验结果

为了增强在复杂多语言场景下的说话人分割性能，研究人员对基线系统的各个组件进行了改进，并结合DOVER - LAP方法来整合系统预测。

改进策略
1. 语音活动检测改进 ：采用Silero VAD替代基线中的TDNN - based SAD。Silero VAD在多种语言和复杂背景噪音、混响条件下训练，能更好地适应挑战环境，提高语音和非语音的检测精度。
2. 说话人嵌入改进 ：使用改进的ECAPA - TDNN嵌入替代X - vector。ECAPA - TDNN在结构上进行了优化，如将基本TDNN层替换为1D - 卷积层和SE - Res2Net块，统计池化层替换为注意力统计池化，能提取更具鲁棒性的说话人特征。
3. 聚类方法优化 ：观察到特定的说话人聚类方法比AHC更适合说话人分割任务，从而选择更优的聚类策略。
4. 系统集成 ：使用DOVER - LAP方法将各个改进系统的输出进行整合，充分利用不同系统的互补优势。
实验结果
在DISPLACE 2023 Challenge的Track - 1盲评估集上进行实验，提出的最佳系统在Phase - 1和Phase - 2分别取得了27.7%和28.6%的DER，优于基线系统。以下是不同系统在评估集上的DER对比：
| 系统 | Phase - 1 DER | Phase - 2 DER |
| — | — | — |
| 基线系统 | [基线DER1] | [基线DER2] |
| 改进系统 | 27.7% | 28.6% |

注：[基线DER1]和[基线DER2]为假设的基线系统在相应阶段的DER值，原文未明确给出。

3. 技术亮点与应用前景

3.1 技术亮点总结

领域不变性学习 ：在口语语言识别中，通过对抗训练的层次注意力网络提取的u - vector嵌入能够学习领域不变的表示，忽略领域特定信息，携带更多语言判别信息，优于传统的x - vector和u - vector嵌入。
多组件改进 ：在说话人分割系统中，对语音活动检测、说话人嵌入和聚类方法进行全面改进，结合系统集成方法，有效提高了在多语言、复杂环境下的说话人分割性能。
大数据训练 ：Silero VAD在超过100种语言和各种背景噪音、混响条件的数据上训练，保证了在复杂场景下的高性能。