多通道语音增强与空间聚类技术在自动语音识别中的应用
1. 空间相关矩阵的初始化与收敛
在语音处理中,假设噪声来自多个方向时,空间相关矩阵的特征值可能呈现更均匀的分布。空间相关矩阵的初始化有多种方法:
- 可以将噪声空间相关矩阵初始化为单位矩阵,将带噪语音相关矩阵初始化为观测麦克风信号的相关矩阵。
- 若有训练数据,也可使用仅含噪声和仅含语音的训练数据计算得到的空间相关矩阵作为初始值。
EM算法可运行固定次数的迭代。实践表明,如果空间相关矩阵能正确初始化,大约20次EM迭代就足够了。
2. 鲁棒前端示例
2.1 自动语音识别系统结构
远程语音识别的自动语音识别(ASR)系统通常由语音增强前端、波束形成降噪和ASR后端组成。下面介绍两个不同挑战中的ASR系统示例。
2.2 抗混响ASR系统
2.2.1 实验设置
- ASR后端 :采用具有七个隐藏层的DNN。输入特征包括40个对数梅尔滤波器组系数,以及附加的一阶和二阶差分系数,并带有左右各五个上下文帧。特征经过全局均值和方差归一化以及话语级均值归一化处理。声学模型在REVERB挑战基线训练数据集上训练,该数据集包含17小时的多条件训练数据,通过将干净语音与测量的房间脉冲响应卷积并添加噪声人工生成。后端使用三元语言模型。
- 语音增强前端参数 :使用8通道麦克风阵列。由于该任务中的噪声相对平稳,MVDR参数通过从每个话语的前几帧估计的噪声空间相关矩阵计算得出。具体参数如下表所示:
| 前端
超级会员免费看
订阅专栏 解锁全文
715

被折叠的 条评论
为什么被折叠?



