阿拉伯语语音识别与文本分析研究
阿拉伯语语音识别中小词发音建模
在自动语音识别(ASR)系统中,未登录词(OOV)问题会给解码过程带来困难,因此应尽量减少OOV。一种解决OOV问题的方法是向字典中添加更多候选发音变体,如复合词。
在处理小词时,有两种常见的方法:基于音系规则的跨词建模和数据驱动的方法。跨词建模是一种根据音系规则扩充单词的方法,它不关注单词的长度;而小词建模则完全基于单词长度,不考虑音系。跨词建模已在多种语言的许多出版物中得到应用。数据驱动的方法则仅依赖语料库转录来生成复合词,在美式英语小词建模中取得了显著的增强效果。然而,现代标准阿拉伯语(MSA)中的小词问题尚未得到解决。
- 动机
连续语音是单词扩充的来源,其扩充取决于语言的音系和单词长度等因素。在阿拉伯语语音识别的研究中发现,相邻小词会对系统性能产生负面影响。例如:
| 待测试语音句子 | 基线系统识别结果 |
| — | — |
| وَﻣُﻤَﺜﱢﻠِﲔَ ﻋَﻦ ﻋَﺪَدٍ ﻣِﻦ اﻟﺪﱡوَلِ اﻷُورُوﺑِﻴﱠﺔ | وَﻣُﻤَﺜﱢﻠِﲔ ﻋَﻦ إِنﱠ اﻟﺪﱡوَلِ اﻷُورُوﺑِﻴﱠﺔ |
可以看到,解码器错误地将两个分开的小词识别为一个词,而较长的词识别正确。因此,将小词复合为一个词可能会提高系统性能。
-
基线系统
使用的基线系统是由KFUPM开发的阿拉伯语语音识别系统,基于CMU Sphinx 3语音识别引擎构建。该引擎使用基于三音素的声学模型
超级会员免费看
订阅专栏 解锁全文
17

被折叠的 条评论
为什么被折叠?



