38、语音识别挑战:CHiME与REVERB的技术探索

语音识别挑战:CHiME与REVERB的技术探索

1. CHiME挑战中的技术策略

1.1 信号增强策略

在CHiME挑战中,良好的目标增强对成功至关重要,几乎所有团队都尝试改进基线系统的这一组件。具体策略如下:
- 更换波束形成器 :许多团队用传统的延迟求和波束形成器取代了基线的超指向性MVDR波束形成器。
- 改进估计 :部分团队保留MVDR框架,但尝试改进导向矢量估计,或语音和噪声协方差估计。
- 添加后置滤波器 :添加后置滤波阶段也是流行策略,如空间相干滤波或去混响。
- 单通道增强 :少数团队在阵列处理后使用额外的单通道增强阶段,但效果边际收益较小。

1.2 统计建模策略

特征设计与归一化

多数团队采用与基线相同的特征设计,即初始对齐阶段使用MFCC特征,DNN阶段使用滤波器组特征。同时,良好的说话人/环境归一化很重要,策略包括:
- 特征均值和方差归一化 :进行基于话语的特征均值和方差归一化。
- 特征增强 :用基于音高的特征增强DNN输入。
- 有效策略 :特征空间最大似然线性回归(fMLLR)和用i - 向量或从说话人分类DNN提取的瓶颈特征增强DNN输入是最成功的策略,两者结合有叠加收益。

声学建模

多数团队采用基线系统的DNN架构,替代

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值