基于DNN的远场语音识别的多通道语音增强方法
1. 引言
近年来,使用配备麦克风阵列的设备进行远场自动语音识别(ASR)受到了工业界和学术界的广泛关注。然而,远距离麦克风录制的语音信号会受到噪声和混响的干扰,严重影响识别性能。因此,要实现稳健的远距离ASR,就必须使ASR系统对这些声学失真具有鲁棒性。
当前最先进的ASR系统通过采用基于深度神经网络(DNN)的声学模型,并利用在各种噪声和混响条件下采集的大量训练数据来实现噪声鲁棒性。此外,在识别之前使用多麦克风语音增强前端来减少噪声或混响,已被证明可以提高最先进的ASR后端的性能。
2. 语音增强的分类
语音增强算法旨在减少麦克风信号中的噪声和混响,主要分为单通道和多通道方法。这些方法大多最初针对声学应用,但有些也可作为ASR前端发挥作用。语音增强技术可分为基于线性处理和非线性处理的方法:
- 线性处理方法 :使用在整个信号或长信号段上恒定的线性滤波器来增强语音,如波束形成和基于线性预测的去混响。
- 非线性处理方法 :包括非线性滤波(如谱减法)、非负矩阵分解(NMF)、基于神经网络的语音增强以及逐帧线性滤波(如维纳滤波)。大多数单通道语音增强技术依赖于非线性处理。
非线性处理的语音增强方法能显著降低噪声,但往往会引入对ASR性能有重大影响的失真。相比之下,线性处理方法在处理后的语音中引入的失真较少,多通道线性滤波的语音增强方法对ASR尤为有效。
3. 问题描述
考虑一个使用由J个麦克风组成的远距离麦克风阵列录制语音的场景。第j个麦克风在时间样本n的
超级会员免费看
订阅专栏 解锁全文
77

被折叠的 条评论
为什么被折叠?



