基于相位感知神经网络的判别式波束形成技术解析
1. 引言
在语音识别领域,基于学习的波束形成方法旨在通过大量训练示例直接优化波束形成,以满足最终自动语音识别(ASR)任务的需求。目前存在两种主要的方法:一种是类似谷歌的“黑盒”方法,让网络自主决定包括空间滤波、特征学习和声学建模等处理步骤;另一种是掩码估计方法,仅使用神经网络预测语音掩码进行空间协方差估计,仍采用传统规则确定波束形成参数。我们提出了一种新的基于学习的波束形成方法,从传统波束形成方法出发,逐步用神经网络替换合适的处理步骤。
2. 系统概述
联合训练波束形成网络和声学模型网络的系统,输入为多通道时域语音信号。系统主要分为左右两个分支:
- 左分支 :使用深度神经网络(DNN)或长短期记忆网络(LSTM)等预测频域复值波束形成权重。
- 右分支 :通过短时傅里叶变换(STFT)将时域信号转换为频域,然后将预测的波束形成权重应用于多通道傅里叶系数,得到增强的单通道傅里叶系数,再进行特征提取生成对数梅尔滤波器组用于声学建模,最后由声学模型网络将滤波器组映射到音素后验概率。
与传统方法相比,该方法的主要区别在于波束形成权重的估计由具有可训练参数的神经网络实现,系统能够通过在多通道语音信号上训练参数自动学习如何进行波束形成,并且权重预测DNN可以与声学模型DNN一起使用ASR代价函数(如交叉熵)进行训练,理论上可以实现比传统波束形成更优化的ASR波束形成。
为了说明和实验,我们选择使用直径为0.2米的八通道全向麦克风圆形阵列,这种阵列适用于会议室等远场场景,并且在一些鲁棒ASR语料库中也有使
超级会员免费看
订阅专栏 解锁全文
9

被折叠的 条评论
为什么被折叠?



