阿拉伯语自动语音识别系统的技术与性能分析
阿拉伯语语音转录技术概述
在阿拉伯语广播转录方面,有一系列技术能将单词错误率控制在 10% 以下。这些技术包括使用超大型识别词汇表、在无元音和有元音声学模型之间进行交叉适配,以及通过平启动训练自动为阿拉伯语音频添加元音。此外,还在大规模无监督判别训练以及利用决策树中的方言问题对阿拉伯语方言进行建模等方面取得了成果。
阿拉伯语自动语音识别的难点
阿拉伯语自动语音识别(ASR)系统面临两大难题,这都源于阿拉伯语的书写系统。
- 词法复杂性 :词缀的附加导致词法复杂,若要减少未登录词(OOV),识别词汇表会变得非常庞大。例如,一个 6.5 万词的阿拉伯语词汇表,OOV 率通常为 5%,而同样规模的英语词汇表 OOV 率仅为 0.5%。
- 短元音缺失 :阿拉伯语书写中通常不写出短元音。虽然自动词法分析器可部分解决这些问题并生成读音,但分析和读音有时会出错。
系统描述
为解决上述问题,设计了四种阿拉伯语 ASR 系统,分别是两种基于单词的系统和两种基于词素的系统。
- 识别单元 :使用单词或词素作为识别单元。
- 语音单元 :使用字符或音素作为语音单元。
实验结果表明,这四个系统单独使用时性能达到当前先进水平,且相互补充。通过 ROVER 组合这四个系统,性能比单个系统有显著提升。每个 ASR 系统的核心是 Byblos 多遍识别器,在不同遍次和阶段使用不同复杂程度的声学和语言模型。
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



