14、基于深度神经网络的原始多通道处理

基于深度神经网络的原始多通道处理

1. 模型对比结果

在多通道语音处理中,有两种重要的模型:两通道分解模型(Factored)和自适应模型(NAB)。对比它们的字错误率(WER)、参数数量(Param)和乘法加法运算量(MultAdd),结果如下表所示:
| 模型 | CE WER (%) | Seq. WER (%) | Param (M) | MultAdd (M) |
| — | — | — | — | — |
| Factored | 20.4 | 17.1 | 18.9 | 35.1 |
| NAB | 20.5 | 17.2 | 24.0 | 28.8 |

从表中可以看出,分解模型可以通过在空间滤波层枚举多个观察方向来处理不同方向的信号。而自适应模型虽然在性能上与分解模型相近,但在计算复杂度上要低很多,无论是参数数量还是乘法加法运算量都更少。

2. 频域滤波

之前介绍了三种时域的多通道模型。由于时域信号的卷积等价于频域对应信号的逐元素相乘,在复数快速傅里叶变换(FFT)空间中操作有很大优势,尤其是在卷积滤波器和输入尺寸较大时,逐元素相乘的计算速度比卷积快很多。接下来将介绍如何在频域实现分解模型和NAB模型。

2.1 分解模型

分解模型在频域的实现主要包括空间滤波和频谱滤波两个部分。
- 空间滤波
对于帧索引 $l$ 和通道 $c$,用 $X_c[l] \in C^K$ 表示 $x_c[t]$ 的 $M$ 点FFT结果,$H_p^c \in C^K$ 表示 $h_p^c$ 的FFT。由于时域输入是实数,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值