基于深度神经网络的原始多通道处理
1. 模型对比结果
在多通道语音处理中,有两种重要的模型:两通道分解模型(Factored)和自适应模型(NAB)。对比它们的字错误率(WER)、参数数量(Param)和乘法加法运算量(MultAdd),结果如下表所示:
| 模型 | CE WER (%) | Seq. WER (%) | Param (M) | MultAdd (M) |
| — | — | — | — | — |
| Factored | 20.4 | 17.1 | 18.9 | 35.1 |
| NAB | 20.5 | 17.2 | 24.0 | 28.8 |
从表中可以看出,分解模型可以通过在空间滤波层枚举多个观察方向来处理不同方向的信号。而自适应模型虽然在性能上与分解模型相近,但在计算复杂度上要低很多,无论是参数数量还是乘法加法运算量都更少。
2. 频域滤波
之前介绍了三种时域的多通道模型。由于时域信号的卷积等价于频域对应信号的逐元素相乘,在复数快速傅里叶变换(FFT)空间中操作有很大优势,尤其是在卷积滤波器和输入尺寸较大时,逐元素相乘的计算速度比卷积快很多。接下来将介绍如何在频域实现分解模型和NAB模型。
2.1 分解模型
分解模型在频域的实现主要包括空间滤波和频谱滤波两个部分。
- 空间滤波 :
对于帧索引 $l$ 和通道 $c$,用 $X_c[l] \in C^K$ 表示 $x_c[t]$ 的 $M$ 点FFT结果,$H_p^c \in C^K$ 表示 $h_p^c$ 的FFT。由于时域输入是实数,
超级会员免费看
订阅专栏 解锁全文
2万+

被折叠的 条评论
为什么被折叠?



