远程语音识别实验与鲁棒语音处理工具包介绍
1. 远程语音识别实验
1.1 多通道语音识别的CNN方法
在多通道语音识别中,构建特征图时采用了跨通道的最大池化方法。激活以通道方式生成,然后进行最大池化形成单个跨通道卷积带,得到的跨通道激活还能沿频率进一步最大池化。通道卷积可视为二维卷积的特殊情况,有效池化区域在频率上确定,但时间上会因麦克风间实际时间延迟而变化。基于CNN的多通道语音识别方法最早在相关研究中提出。CNN/ANN模型在附加了一阶和二阶时间导数的FBANK特征上进行训练,特征在11帧窗口中呈现。
1.2 不同录音场景下的实验结果
1.2.1 SDM录音
单通道CNN的实验结果如下表所示:
| 系统 | AMI开发集 |
| — | — |
| BMMI GMM - HMM (LDA/STC) | 63.2 |
| ANN (FBANK) | 53.1 |
| CNN (R = 3) | 51.4 |
| CNN (R = 2) | 51.3 |
| CNN (R = 1) | 52.5 |
使用CNN相对于最佳ANN模型,字错误率(WER)有3.4%的相对降低;与判别训练的GMM - HMM相比,WER有19%的相对降低。CNN模型的总参数数量随R = N变化,而J在实验中保持不变。表现最佳的模型参数数量既不是最高也不是最低,这可能是由于最优池化设置。
1.2.2 MDM录音
对于MDM情况,比较了延迟求和波束形成器和直接使用多个麦克风通道作为网络输入的方法。波束形成实验中,先使用维纳滤
超级会员免费看
订阅专栏 解锁全文
11

被折叠的 条评论
为什么被折叠?



