41、远程语音识别实验与鲁棒语音处理工具包介绍

远程语音识别实验与鲁棒语音处理工具包介绍

1. 远程语音识别实验

1.1 多通道语音识别的CNN方法

在多通道语音识别中,构建特征图时采用了跨通道的最大池化方法。激活以通道方式生成,然后进行最大池化形成单个跨通道卷积带,得到的跨通道激活还能沿频率进一步最大池化。通道卷积可视为二维卷积的特殊情况,有效池化区域在频率上确定,但时间上会因麦克风间实际时间延迟而变化。基于CNN的多通道语音识别方法最早在相关研究中提出。CNN/ANN模型在附加了一阶和二阶时间导数的FBANK特征上进行训练,特征在11帧窗口中呈现。

1.2 不同录音场景下的实验结果

1.2.1 SDM录音

单通道CNN的实验结果如下表所示:
| 系统 | AMI开发集 |
| — | — |
| BMMI GMM - HMM (LDA/STC) | 63.2 |
| ANN (FBANK) | 53.1 |
| CNN (R = 3) | 51.4 |
| CNN (R = 2) | 51.3 |
| CNN (R = 1) | 52.5 |

使用CNN相对于最佳ANN模型,字错误率(WER)有3.4%的相对降低;与判别训练的GMM - HMM相比,WER有19%的相对降低。CNN模型的总参数数量随R = N变化,而J在实验中保持不变。表现最佳的模型参数数量既不是最高也不是最低,这可能是由于最优池化设置。

1.2.2 MDM录音

对于MDM情况,比较了延迟求和波束形成器和直接使用多个麦克风通道作为网络输入的方法。波束形成实验中,先使用维纳滤

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值