单通道语音分离与深度学习语音识别中的鲁棒特征
1. 单通道语音分离实验结果
在单通道源分离问题的实验中发现,循环网络,尤其是长短期记忆(LSTM)变体,相较于包括非负矩阵分解(NMF)在内的早期方法极为有效。通过多种指标评估增强结果,在所有指标中,分离质量都有显著提升。
1.1 损失函数效果
- 相敏损失函数 :在提高信号与失真比(SDR),尤其是信号与干扰比(SIR)指标方面极为有效。
- 相敏和幅度信号域损失 :在单词错误率方面产生相近的结果。
1.2 实验总结
实验是在从背景噪声中分离语音的情境下进行的,背景噪声是在现实客厅环境中录制的,混合过程是模拟的以便进行客观测量。未来工作应解决实际混合问题,并找到基于实际混合信号评估方法的途径。当自动语音识别(ASR)准确率是最终目标时,可以使用单词错误率(WER)作为指标,但语音分离的目标并不总是局限于ASR,还可能是提高人类通信的感知质量和/或可懂度,或为助听器等设备改善分离效果。
2. 深度学习语音识别发展历程
2.1 传统声学模型
在深度学习出现之前,基于高斯混合模型(GMM)的隐马尔可夫模型(HMM)是自动语音识别(ASR)系统的先进声学模型。然而,GMM - HMM系统易受背景噪声和信道失真的影响,训练和测试条件的微小不匹配可能使语音识别变得困难。为解决这一问题,语音研究界通过语音增强或使用鲁棒信号处理技术来减少训练和测试条件的不匹配,还探索了数据增强或引入可靠性掩码等方法使声学模型更鲁棒
超级会员免费看
订阅专栏 解锁全文
3986

被折叠的 条评论
为什么被折叠?



