21、单通道语音分离与深度学习语音识别中的鲁棒特征

单通道语音分离与深度学习语音识别中的鲁棒特征

1. 单通道语音分离实验结果

在单通道源分离问题的实验中发现,循环网络,尤其是长短期记忆(LSTM)变体,相较于包括非负矩阵分解(NMF)在内的早期方法极为有效。通过多种指标评估增强结果,在所有指标中,分离质量都有显著提升。

1.1 损失函数效果

  • 相敏损失函数 :在提高信号与失真比(SDR),尤其是信号与干扰比(SIR)指标方面极为有效。
  • 相敏和幅度信号域损失 :在单词错误率方面产生相近的结果。

1.2 实验总结

实验是在从背景噪声中分离语音的情境下进行的,背景噪声是在现实客厅环境中录制的,混合过程是模拟的以便进行客观测量。未来工作应解决实际混合问题,并找到基于实际混合信号评估方法的途径。当自动语音识别(ASR)准确率是最终目标时,可以使用单词错误率(WER)作为指标,但语音分离的目标并不总是局限于ASR,还可能是提高人类通信的感知质量和/或可懂度,或为助听器等设备改善分离效果。

2. 深度学习语音识别发展历程

2.1 传统声学模型

在深度学习出现之前,基于高斯混合模型(GMM)的隐马尔可夫模型(HMM)是自动语音识别(ASR)系统的先进声学模型。然而,GMM - HMM系统易受背景噪声和信道失真的影响,训练和测试条件的微小不匹配可能使语音识别变得困难。为解决这一问题,语音研究界通过语音增强或使用鲁棒信号处理技术来减少训练和测试条件的不匹配,还探索了数据增强或引入可靠性掩码等方法使声学模型更鲁棒

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值