多说话人语音识别与说话人验证模型的创新研究
在语音处理领域,多说话人语音识别和说话人验证是两个重要的研究方向。多说话人语音识别旨在准确识别混合语音中不同说话人的内容,而说话人验证则是判断测试语音是否属于注册身份。然而,这两个任务都面临着一些挑战,如多说话人语音识别中的说话人区分困难,以及说话人验证中的领域偏移问题。本文将介绍针对这些问题提出的创新模型和方法。
多说话人语音识别模型改进
- 传统模型问题 :以往模型的输出层数量与说话人数量对应且相互独立,这不仅限制了在未知说话人情况下的性能,还可能因这种独立性导致输出重复。
- SOT策略及局限 :SOT应用于单说话人端到端ASR模型,打破了输出层的独立性,但它迫使模型通过切换标记学习说话人之间的依赖关系,忽略了模型有限的学习能力。在复杂混合语音(如高重叠率、低信噪比)情况下,模型学习压力增大,性能显著下降。
- 提出的方法 :为减轻ASR模型区分说话人的压力,在该模块前添加语音分离模型。分离模型得到的特征与说话人明确相关,能为ASR模型提供先验信息。提出的模型将分离器的N个掩码表示输入到融合模块,尝试了三种不同的融合方法:
- 直接将N个特征相加。
- 将N个特征相加后再与原始特征拼接。
- 使用交叉注意力融合掩码表示和原始特征,公式如下:
- (Q = \hat{O}W_Q \in R^{T \times d_k})
- (K_i = R_iW_{K
超级会员免费看
订阅专栏 解锁全文
3363

被折叠的 条评论
为什么被折叠?



