语音处理中的新型深度架构探索
在语音处理领域,新型深度架构的研究对于提升语音识别、增强等任务的性能至关重要。本文将深入探讨几种新型深度架构,包括基于特殊结构的Sigmoid网络、信念传播算法、深度非负矩阵分解以及多通道深度展开模型。
特殊结构的Sigmoid网络
Sigmoid网络具有一种特殊结构,其激活函数可以表示为:
[
\boldsymbol{\pi} k = \text{logistic}(\mathbf{A}_k\boldsymbol{\pi} {k - 1} + \mathbf{b} k + \mathbf{C}_k\mathbf{v})
]
其中,(\boldsymbol{\pi}_k) 是第 (k) 层的激活向量,(\boldsymbol{\pi} {k,i} = q_k(h_i = 1))。这种结构的特点是输入连接到所有层,这是对模型展开的结果,其中任何隐藏变量都可能直接连接到观测值。
为了模拟传统的情况,即第一层仅依赖于输入,后续层仅依赖于前一层,我们可以让 (c_{k,i,l}) 仅在第一帧((k = 0))时非零。同时,初始分布 (\boldsymbol{\pi} {k = 0,i}) 以及相关权重 (\mathbf{a} {k = 1,i,j}) 可以设置为零。此外,我们还可以放宽原模型中 (a_{k,i,i} = 0) 的约束,以达到传统Sigmoid网络的通用性。
值得注意的是,传统的前馈Sigmoid网络也可以通过从深度的逐层二进制马尔可夫随机场(MRF)开始,进行一次从输入到最后一层的平均场更新来更简单地推导得出。这对应于
超级会员免费看
订阅专栏 解锁全文
3298

被折叠的 条评论
为什么被折叠?



