时域特征与元音发音时口腔构型的关联及其在元音识别中的应用
1. 引言
在当今时代,人机界面开发的技术进步显著。这主要得益于人们对利用数字平台获取知识并改善生活的需求不断增加,同时计算能力的提升、数字连接的增强以及人工智能高效算法的发展,也推动了高效系统的开发。
高效人机界面的成功依赖于向系统提供信息丰富且准确的输入,而语音是理想的输入选择,因为它是表达思想和情感的重要交流方式。构建高效的语音识别系统是实现这一目标的第一步。过去几十年,语音识别领域发展出了多种时域、频域和混合算法。
采用自下而上的识别方法能显著提高语音识别系统的效率,该方法与人类解码语音的过程相似。由于辅音识别效果欠佳,正确识别元音对于准确识别口语单词至关重要。此外,元音分类系统还应用于说话人识别与验证、语言识别以及语音情感识别等领域。
目前,在元音分类中,已经使用了多种频域参数(如 MFCC、LPC、共振峰等)和时域参数(如过零率、闪烁、抖动等)。时域参数的优点是提取简单,相比之下,频域参数的提取过程较为复杂。为解决这一问题,研究人员开始关注时频域参数,并将其应用于神经网络中。
本研究尝试将四个时域参数(峰 - 峰距离、极值率、过零率和扰动面积)与元音的舌位高度和位置等定性特征相关联,并使用四种不同类型的分类器(朴素贝叶斯、多层感知器、随机森林和支持向量机)来测试这些参数在元音分类中的有效性。
2. 方法
2.1 孟加拉语简介
孟加拉语是世界上第五大使用人数最多的母语,约有 2.65 亿人使用。它是印度的 22 种预定语言之一,也是西孟加拉邦和特里普拉邦的官方语言,同时还是孟加拉国的国语。孟加拉语属于印欧语
超级会员免费看
订阅专栏 解锁全文
6033

被折叠的 条评论
为什么被折叠?



