基于深度神经网络的原始多通道处理技术解析
1. 多通道模型对比结果
在多通道模型的研究中,对两通道分解模型(Factored)和自适应模型(NAB)进行了对比,结果如下表所示:
| 模型 | WER (CE, %) | WER (Seq, %) | Param (M) | MultAdd (M) |
| — | — | — | — | — |
| Factored | 20.4 | 17.1 | 18.9 | 35.1 |
| NAB | 20.5 | 17.2 | 24.0 | 28.8 |
从表中可以看出,分解模型可以通过在空间滤波层枚举多个观察方向来处理不同方向的信号,而自适应模型能够以更低的计算复杂度达到相似的性能,这体现在模型的参数数量和乘法加法运算次数上。
2. 频域滤波实现
由于时域中两个信号的卷积等价于其频域对应信号的逐元素乘积,且在复杂FFT空间中逐元素乘积的计算速度比卷积快,尤其是在卷积滤波器和输入尺寸较大的多通道原始波形模型中。因此,接下来介绍如何在频域中实现分解模型和NAB模型。
2.1 分解模型
- 空间滤波 :对于帧索引$l$和通道$c$,用$X_c[l] \in C^K$表示$x_c[t]$的$M$点FFT结果,用$H_p^c \in C^K$表示$h_p^c$的FFT。由于时域输入是实数,忽略负频率,$M$点FFT的频域表示仅包含$K = M/2 + 1$个唯一的复值频带。空间卷积层在频域中可表示为:
$Y_p[l] = \sum_{c = 0}^{C} X_c[l] \odot H_
超级会员免费看
订阅专栏 解锁全文
14万+

被折叠的 条评论
为什么被折叠?



