深度神经网络自适应与训练数据增强:提升语音识别鲁棒性
1. 深度神经网络自适应方法
在语音识别领域,深度神经网络(DNN)的自适应是提升识别鲁棒性的关键。许多基于模型的DNN自适应方法采用结构化参数化,将负责音素分类的全局参数与可针对特定条件进行调整的自适应参数分开。然而,这些自适应参数往往难以直接解释。
1.1 结合生成组件的方法
为解决这一问题,一些方法尝试将生成组件融入DNN,以便应用传统的自适应技术。例如,Liu和Sim提出使用时变权重回归(TVWR)框架,将DNN和高斯混合模型(GMM)相结合,充分利用DNN的高质量判别能力和GMM的自适应能力。Variani等人将GMM层融入DNN,也为自适应提供了潜在的解决方案。
1.2 分析隐藏单元激活模式
近期,Nagamine等人和Sim开始分析DNN隐藏单元的激活模式,将隐藏单元的角色与音素类别关联起来。这种信息有助于解释DNN参数,并可能衍生出更优的DNN自适应技术。此外,Tan等人提出了刺激深度学习方法,明确约束DNN的训练过程,使网络的隐藏单元呈现可解释的激活模式。这些约束在正则化方面表现出色,对自适应也具有潜在的应用价值。
1.3 方法总结
| 方法 | 特点 |
|---|---|
| TVWR框架结合DNN和GMM | 利用DNN判别能力和GMM自适应能力 |
| 融入GMM层到DNN |
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



