基于相位感知神经网络的判别式波束形成及原始多通道处理
1. 波束形成与声学模型网络的联合训练
波束形成网络和声学模型网络的联合训练在MATLAB中使用基于帧的交叉熵代价函数实现。训练期间,对静音帧不进行特殊处理。训练完成后,网络可生成波形或滤波器组特征形式的增强语音。这些特征随后用于使用Kaldi语音识别工具包从头训练DNN声学模型,而LSTM声学模型则使用CNTK进行训练。DNN和LSTM声学模型都先使用交叉熵代价函数训练,再使用顺序代价函数训练。在自动语音识别(ASR)解码时,使用基于75小时训练数据的词标签训练的三元语言模型。
2. 网络配置
- 波束形成网络 :采用简单的前馈DNN,包含两个隐藏层,每个隐藏层有1024个Sigmoid隐藏节点。网络的输入和输出维度分别为588和4112,输出层使用线性激活函数。
- 声学模型网络 :使用两种类型的声学模型网络。在波束形成和声学模型网络的联合交叉熵(CE)训练中,使用前馈DNN作为声学模型,包含六个隐藏层,每个隐藏层有2048个Sigmoid隐藏节点,输入和输出维度分别为1320和3968。为了获得更好的ASR性能,还使用与DNN声学模型联合训练的波束形成网络处理后的特征训练基于LSTM的声学模型。
3. 波束模式分析
为了理解波束形成网络的行为,对其预测的波束形成权重和波束模式进行分析。
- 模拟句子的波束模式 :对于训练中未见过的模拟句子,比较了四种波束模式,包括给定真实到达方向(DOA)的DS波束形成器的波
超级会员免费看
订阅专栏 解锁全文
3880

被折叠的 条评论
为什么被折叠?



