语音识别中的数据增强、选择与先进循环神经网络技术
神经网络配置优化
为了找到总结神经网络的最佳配置,研究人员进行了一系列实验,对添加总结向量的隐藏层(连接层)、该层的大小(即提取向量的大小)以及用于训练网络的数据量进行了调整。虽然整个复合网络并非用于最终应用的解码,但在实验中直接用于测试有噪声的数据,这种通道自适应场景使我们无需进行耗时的数据选择和系统重建过程,就能找到最佳配置。
-
最佳连接层评估
- 实验中,DMM和SNN所有隐藏层的大小均为2048,有噪声的训练数据量与原始干净数据集相同。
- 以CHiME - 3为例,结果如下表所示:
| 连接层 | XE (%WER) |
| — | — |
| 无 | 47.72 |
| 1 | 39.89 |
| 2 | 39.32 |
| 3 | 40.09 |
| 4 | 41.08 |
| 5 | 40.70 | - 从结果可以看出,将总结向量添加到第二个隐藏层对于使干净的DNN适应有噪声的数据最为有效。并且,通过在干净的DNN中添加总结向量提取器,单词错误率(WER)绝对降低了超过8%。
-
总结向量的最佳大小评估
- 以第二个隐藏层作为连接层,为了训练不同大小的总结向量提取器,需要在干净数据上重新训练具有不同第二个隐藏层大小的原始DNN分类器。
- 总结向量维度与WER降
超级会员免费看
订阅专栏 解锁全文
1183

被折叠的 条评论
为什么被折叠?



