语音障碍识别:机器学习算法的比较研究
研究背景与目标
近年来,机器学习算法在语音障碍识别领域的应用显著增加。不同研究使用了不同的数据集、语音特征和分类器来识别语音病理。本研究旨在通过提取持续元音 /a/ 的频谱特征,训练多种机器学习模型,区分健康和病理性语音样本。
相关工作
此前的研究探索了多个数据集,如 SVD、MEEI 和 AVPD;多种语音特征,包括频谱滚降、频谱质心、频谱对比度、色度、MFCC 和 ZCR;以及多种分类器,如 RF、kNN、SVM 和 GMM 等用于语音病理识别。部分研究成果如下:
- Al - Nasheri 等人使用持续元音 /a/ 的样本,通过自相关和熵方法提取特征训练 SVM 分类器,在 MEEI、SVD 和 AVPD 数据集上分别获得 99.54%、99.53% 和 96.02% 的分类准确率。
- AL - Dhief 等人提出的 OSELM 算法,使用从 SVD 中提取的 MFCC 特征检测语音病理,准确率、灵敏度和特异性分别达到 85%、87% 和 87%。
- Gupta 使用 33 个特征训练 LSTM 模型,灵敏度、特异性和平均召回率分别为 22%、97% 和 56%。
- Syed 等人对 CNN 和 RNN 进行比较分析,在病理样本上分别获得 87.11% 和 86.52% 的准确率。
- Omeroglu 等人从音频和 EGG 信号中提取特征,使用 CNN 提取深度特征,训练 SVM 模型获得 90.10% 的准确率。
- Fan 等人使用 SMOTE、Borderline - SMOTE 和 ADASYN 解决 MEEI 数据库的类不平衡问题,提出的 FC - S
超级会员免费看
订阅专栏 解锁全文
1201

被折叠的 条评论
为什么被折叠?



