语音处理中的新型深度架构
1. 引言
机器学习中,基于模型的方法和深度神经网络(DNNs)是两种非常成功的框架,但它们各有优缺点。本文旨在提供一种通用策略,结合两者的优点,同时避免其缺点。核心思路是将基于模型的迭代推理方法展开为类似神经网络的分层结构,然后解开各层的模型参数,得到新型的类神经网络架构,可使用基于梯度的方法进行有判别性的训练。这种方法被称为深度展开。
基于生成模型的方法,如概率图模型,允许我们利用先验知识和直觉在问题层面设计推理算法。我们可以直接将问题约束的重要假设融入模型,例如信号的线性可加性、视觉遮挡、三维几何等,以及更微妙的统计假设,如条件独立性、潜在变量结构、稀疏性、低秩协方差等。然而,复杂概率模型的推理在数学和计算上都可能难以处理。近似方法(如信念传播和变分近似)虽能导出迭代算法,但会削弱模型约束,且迭代方法对于时间敏感的应用来说通常太慢。在这种情况下,对这类模型进行严格的判别式优化可能具有挑战性,因为可能涉及双层优化。
确定性深度神经网络在许多应用中已成为最先进的技术。其推理通过封闭形式的表达式计算,按层组织并通常按顺序执行。对网络进行有判别性的训练可以优化速度与准确性的权衡。但传统的DNNs更像是“黑盒”机制,难以融入关于问题的先验知识。即使有一个运行良好的DNN系统,也不清楚它是如何实现结果的,因此修改其架构以获得更好结果更像是一门艺术而非科学。
本文将基于模型方法的问题层面公式引入深度神经网络架构的设计中。我们首先展示了如何将传统的Sigmoid神经网络理解为对马尔可夫随机场(MRFs)中的平均场推理应用深度展开的结果。用信念传播代替平均场推理,说明了深度展开如何导致替代的神经网络架构。
后续内容将重点关注体
超级会员免费看
订阅专栏 解锁全文
3308

被折叠的 条评论
为什么被折叠?



