深度神经网络在语音处理中的应用
1. 多上下文网络方法
在语音处理中,多上下文网络有两种主要的实现方式:多上下文平均和多上下文堆叠。
1.1 多上下文平均
多上下文平均通过对多个深度神经网络(DNN)的输出进行平均来实现。具体步骤如下:
1. 特征提取 :对混合信号 (x_{t}^{(\tau)}) 和对应的源信号 ({x_{1,t},x_{2,t}}) 在每个时间帧 (t) 提取使用短时傅里叶变换(STFT)的幅度谱。混合信号 (x_{t}^{(\tau)}) 由下式构成:
[x_{t}^{(\tau)} = \left[\left(x_{mix}^{t - \tau}\right)^{\top}, \cdots, \left(x_{mix}^{t}\right)^{\top}, \cdots, \left(x_{mix}^{t + \tau}\right)^{\top}\right]^{\top}]
其中,(\tau) 表示不同数量的相邻帧,例如包含 ({x_{t}^{(0)},x_{t}^{(1)},x_{t}^{(2)}})。
2. 训练阶段 :通过使用不同 (\tau) 或上下文窗口大小的混合信号 (x_{t}^{(\tau)}) 来估计参数 (w^{(\tau)}),从而训练不同的 DNN。系统中有 (N_{\tau}) 个 DNN,对每个 DNN 最小化平方和误差函数 (E(w^{(\tau)}))。
3. 测试阶段 :计算 (N_{\tau}) 个 DNN 中的各个软掩码函数 (\left[y_{1
超级会员免费看
订阅专栏 解锁全文
2019

被折叠的 条评论
为什么被折叠?



