深度神经网络的原始多通道处理技术解析
在语音处理领域,深度神经网络的原始多通道处理技术有着重要的应用。下面将详细介绍该技术的多个方面,包括不同模型的性能对比、架构设计以及自适应波束形成等内容。
1. 滤波器数量与通道数对原始波形多通道CLDNN的影响
在原始波形多通道CLDNN中,滤波器数量和输入通道数会对整体的单词错误率(WER)产生影响。具体数据如下表所示:
| Filters | 2 ch (14 cm) | 4 ch (4–6–4 cm) | 8 ch (2 cm) |
| ---- | ---- | ---- | ---- |
| 128 | 21.8 | 21.3 | 21.1 |
| 256 | 21.7 | 20.8 | 20.6 |
| 512 | – | 20.8 | 20.6 |
从表中可以看出,对于双通道输入的网络,滤波器数量增加到128时,性能提升趋于饱和;而四通道和八通道网络在滤波器数量增加到256时,仍能继续提升性能。这是因为增加输入通道后,tConv滤波器能够学习更复杂的空间响应,从而利用额外的滤波器组容量来提高性能。
2. 原始波形模型与对数梅尔模型的对比
为了对比原始波形模型和对数梅尔模型,我们进行了相关实验。对数梅尔多通道CLDNN的WER数据如下:
| Filters | 2 ch (14 cm) | 4 ch (4–6–4 cm) | 8 ch (2 cm) |
| ---- | ---- | ---- | ---- |
| 128 | 22.0 | 21.7 | 22.0 |
| 256 | 21.8 |
超级会员免费看
订阅专栏 解锁全文
14万+

被折叠的 条评论
为什么被折叠?



