语音处理技术:关键词检测与语音活动检测的创新方法
1. 关键词检测技术
1.1 动态贝叶斯网络(Dynamic Bayesian Network)
动态贝叶斯网络可看作图形模型 G(V, E),由节点集 V 和边集 E 组成。节点代表随机变量,这些变量可以是隐藏的或可观测的。边(或缺失的边)编码了条件独立性假设,用于确定联合概率分布的有效因式分解。传统的隐马尔可夫模型方法可解释为使用单个马尔可夫链和整数状态的隐式图表示,以表示所有上下文和控制信息,确定允许的序列。而这里采用显式方法,当前音素、音素转换指示或单词内的位置等信息由随机变量表示。
1.2 双向长短期记忆网络(Bidirectional LSTM Network)
双向循环神经网络的基本思想是使用两个循环网络层,一个正向处理训练序列,另一个反向处理。这两个网络连接到同一个输出层,因此该输出层可以访问序列中当前点前后的数据点的完整信息。网络实际使用的上下文信息量在训练过程中学习,无需事先指定。
传统循环神经网络(RNN)存在误差流问题,由于反向传播的误差随时间要么爆炸要么衰减(梯度消失问题),导致长时滞信息无法被有效利用。因此引入了长短期记忆(LSTM)RNN。LSTM 层由循环连接的记忆块组成,每个记忆块包含一个或多个循环连接的记忆单元,以及三个乘法“门”单元:输入门、输出门和遗忘门。这些门的功能类似于读取、写入和重置操作。具体来说,单元输入乘以输入门的激活值,单元输出乘以输出门的激活值,先前的单元值乘以遗忘门的激活值。它们的作用是使网络能够长时间存储和检索信息。
将双向网络与 LSTM 结合得到双向 LSTM(BLSTM),它在音素识别、关键词检测和情
超级会员免费看
订阅专栏 解锁全文
917

被折叠的 条评论
为什么被折叠?



