15、语音处理中的新型深度架构

躺平摸鱼王

于 2025-10-19 15:14:19 发布

阅读量7

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习重塑语音识别文章标签：深度展开马尔可夫随机场平均场推理

本文链接：https://blog.youkuaiyun.com/k8s6orchestrator/article/details/155061336

深度学习重塑语音识别专栏收录该内容

47 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

语音处理中的新型深度架构

1. 引言

机器学习中两种非常成功的框架分别是基于模型的方法和深度神经网络（DNNs）。它们各有显著的优缺点。本文旨在提供一种通用策略，以融合这两种方法的优势，同时避免它们的诸多劣势。

基于模型的生成式方法，如概率图模型，其优势在于允许我们利用先验知识和直觉，在问题层面设计推理算法。可以将关于问题约束的重要假设直接融入模型，例如信号的线性可加性、视觉遮挡、三维几何结构，以及条件独立性、潜在变量结构、稀疏性、低秩协方差等统计假设。不过，复杂概率模型的推理在数学和计算上都可能难以处理。近似方法虽能推导出迭代算法来推断潜在变量，但会进一步削弱模型的约束，且迭代方法对于时间敏感的应用来说往往速度过慢。此外，对这类模型进行严格的判别式优化也颇具挑战，因为可能涉及双层优化，即参数优化依赖于迭代推理算法。

确定性深度神经网络在许多应用中已成为主流。其推理通过封闭形式的表达式计算，按层组织并顺序执行。网络的判别式训练可优化速度与准确性的权衡，对于特定应用中表现出色的系统而言不可或缺。然而，传统DNNs更像是“黑箱”机制，难以融入关于问题的先验知识。即便有一个运行良好的DNN系统，也不清楚它是如何实现结果的，因此修改其架构以获得更好结果更像是一门艺术而非科学。

本文提出的深度展开框架，通过将基于模型方法的问题层面公式引入深度神经网络架构设计，解决了上述问题。该框架的基本思路是：对于需要迭代推理方法的基于模型的方法，将迭代展开为类似神经网络的分层结构，然后解开各层的模型参数，得到新型的类神经网络架构，可使用基于梯度的方法轻松进行判别式训练。这种方法结合了传统深度网络的表达能力和基于模型方法的内部结构，同时允许在固定层数内进行推理，并对层数进行优化以获得最