低资源语言自动语音识别研究进展
一、OpenASR21 挑战赛成果
1.1 LSTM LM 微调尝试
研究人员曾尝试使用 LDC 训练文本以小学习率对 LSTM LM 语言模型进行微调,但每次仅使词错误率(WER)降低了 0.1%。主要影响因素在于 LSTM LM 是使用 LDC + 翻译 + 过滤后的公共文本进行训练,还是使用 LDC + 过滤后的公共文本进行训练。另一个重要因素是用于 LSTM LM 重评分的解码格是由仅使用 LDC 训练的语言模型生成,还是由 LDC·Trans·Sel 生成,亦或是由具有增强词汇量的 LDC + 公共文本生成。
1.2 各语言 WER 改进情况
| 语言 | 改进前 WER | 改进后 WER | 参考文献中的 WER |
|---|---|---|---|
| 阿姆哈拉语 | 37.2 | 36.1 | 35.0 |
| 粤语 | 45.6 | 45.0 | 42.3 |
| 波斯语 | 51.7 | 50.8 | 52.4 |
| 格鲁吉亚语 | 40. |
超级会员免费看
订阅专栏 解锁全文
1121

被折叠的 条评论
为什么被折叠?



