CHiME与REVERB挑战:语音识别技术的发展与挑战
1. CHiME挑战中的技术策略
1.1 信号增强策略
在CHiME挑战中,良好的目标增强对成功至关重要,几乎所有团队都尝试改进基线系统的这一组件。许多团队用传统的延迟求和波束形成器取代了基线的超指向性MVDR波束形成器。还有一些团队保留了MVDR框架,但尝试改进导向矢量的估计,或语音和噪声协方差的估计。另一个流行的策略是添加后滤波阶段,如空间相干滤波或去混响。少数团队在阵列处理后使用了额外的单通道增强阶段,但这些方法的收益相对较小。
1.2 统计建模策略
- 特征设计 :大多数团队采用了与基线设计相同的特征设计,即初始对齐阶段使用MFCC特征,DNN阶段使用滤波器组特征。同时,良好的说话人/环境归一化被认为很重要。除了在HMM/GMM训练中应用显式的说话人归一化变换外,在DNN训练中改进归一化也很有优势。策略包括执行基于话语的特征均值和方差归一化,以及用基于音高的特征增强DNN输入。最成功的策略是特征空间最大似然线性回归(fMLLR),以及用i向量或从说话人分类DNN中提取的瓶颈特征增强DNN输入。
- 声学建模 :大多数团队采用了基线系统提供的DNN架构。值得注意的替代方案包括卷积神经网络和长短期记忆(LSTM)网络。对提交系统性能的比较并未显示出任何特定架构有明显优势,一些最佳系统仍采用了基线架构。当采用替代架构时,它们通常会组合使用。
- 语言模型重评分 :大多数团队使用比基线解码器使用的3-gram模型更复杂的模型进行语言模型
超级会员免费看
订阅专栏 解锁全文
1881

被折叠的 条评论
为什么被折叠?



