阿拉伯语语音识别与发音建模技术解析
1. 阿拉伯语发音与声学建模进展
阿拉伯语语音识别面临诸多挑战,其中之一是大部分阿拉伯语文本书写时不带有变音符号,而这些符号对发音建模和高级处理有重要作用。为解决这一问题,研究人员采取了一系列措施。
在发音建模方面,对于“tanwin”(词尾元音后加“n”的现象),通过在音素集中添加三个代表“tanwin”音素(in、an、un)的音素,并构建声学模型进行测试。结果显示,这些模型与非“tanwin”模型的词错误率相当,且系统组合实现了0.4%的绝对增益。同时,构建了允许“tanwin”有多种形式的对比模型,性能与之前的模型集相近,这表明对“tanwin”采用合理连贯的表示方式即可。
为了在信息不完整的情况下进行训练,研究人员使用Buckwalter形态分析器及其改进版本来推导许多带元音的词形。对于Buckwalter无法处理的单词,提出了用通用元音生成发音的规则。这种方法显著促进了对非带元音数据的训练,LIMSI GALE系统中使用的所有声学模型都采用了这种训练方式。训练词典中16%的单词和识别词典中11%的单词的发音带有通用元音。
此外,对双辅音和定冠词“Al”的发音变体进行显式建模,以及对埃及阿拉伯语中的“g”音、黎巴嫩数据中词尾/a/发音为前元音/i/的趋势、口语阿拉伯语中词尾元音为“Sukoun”的趋势等变体进行建模,都取得了性能提升。
2. 发音词典的统计建模
现代语音识别系统依赖语言模型和声学模型,而发音词典则将二者联系起来。传统的发音词典通常由人工专家手工制作,成本高且资源有限。
在字母书写系统中,单词的拼写形式可以在一定程度上反映发音,但不同语言
超级会员免费看
订阅专栏 解锁全文
12

被折叠的 条评论
为什么被折叠?



