深度神经网络的原始多通道处理技术解析
在语音处理领域,深度神经网络在多通道处理方面展现出了巨大的潜力。本文将详细探讨原始多通道处理的相关技术,包括不同模型的性能比较、架构设计以及自适应波束形成等内容。
1. 滤波器数量与通道数对原始波形模型的影响
在原始波形多通道CLDNNs模型中,滤波器数量和输入通道数对整体单词错误率(WER)有着显著影响。以下是不同滤波器数量和通道数下的WER数据:
| 滤波器数量 | 2通道 (14 cm) | 4通道 (4–6–4 cm) | 8通道 (2 cm) |
| — | — | — | — |
| 128 | 21.8 | 21.3 | 21.1 |
| 256 | 21.7 | 20.8 | 20.6 |
| 512 | - | 20.8 | 20.6 |
从表格中可以看出,增加滤波器数量有助于降低WER。对于双通道输入的网络,在128个滤波器时改进效果趋于饱和;而四通道和八通道网络在256个滤波器时仍能继续提升性能。这是因为更多的输入通道使tConv滤波器能够学习更复杂的空间响应,从而利用额外的滤波器组容量来提高性能。
2. 与对数梅尔特征模型的比较
为了对比,我们还训练了基线多通道对数梅尔CLDNNs模型。对数梅尔特征是通过快速傅里叶变换(FFT)幅度计算得到的,因此丢失了精细的时间结构和麦克风间延迟信息,只能利用较弱的麦克风间电平差异线索。以下是对数梅尔模型在不同条件下的WER数据:
| 滤波器数量 | 2通道 (14 cm) | 4通道 (4–6–4 cm) | 8通道 (2 cm) |
| — | — | — | — |
超级会员免费看
订阅专栏 解锁全文
14万+

被折叠的 条评论
为什么被折叠?



