38、CHiME与REVERB挑战:语音识别技术的发展与挑战

CHiME与REVERB挑战:语音识别技术的发展与挑战

1. CHiME挑战中的技术策略

1.1 信号增强策略

在CHiME挑战中,良好的目标增强对成功至关重要,几乎所有团队都尝试改进基线系统的这一组件。许多团队用传统的延迟求和波束形成器取代了基线的超指向性MVDR波束形成器。还有一些团队保留了MVDR框架,但尝试改进导向矢量的估计,或语音和噪声协方差的估计。另一个流行的策略是添加后滤波阶段,如空间相干滤波或去混响。少数团队在阵列处理后使用了额外的单通道增强阶段,但这些方法的收益相对较小。

1.2 统计建模策略

  • 特征设计 :大多数团队采用了与基线设计相同的特征设计,即初始对齐阶段使用MFCC特征,DNN阶段使用滤波器组特征。同时,良好的说话人/环境归一化被认为很重要。除了在HMM/GMM训练中应用显式的说话人归一化变换外,在DNN训练中改进归一化也很有优势。策略包括执行基于话语的特征均值和方差归一化,以及用基于音高的特征增强DNN输入。最成功的策略是特征空间最大似然线性回归(fMLLR),以及用i向量或从说话人分类DNN中提取的瓶颈特征增强DNN输入。
  • 声学建模 :大多数团队采用了基线系统提供的DNN架构。值得注意的替代方案包括卷积神经网络和长短期记忆(LSTM)网络。对提交系统性能的比较并未显示出任何特定架构有明显优势,一些最佳系统仍采用了基线架构。当采用替代架构时,它们通常会组合使用。
  • 语言模型重评分 :大多数团队使用比基线解码器使用的3-gram模型更复杂的模型进行语言模型
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值