61、语音障碍识别：机器学习算法的比较研究

最新推荐文章于 2025-11-24 15:27:14 发布

gitlab7runner

最新推荐文章于 2025-11-24 15:27:14 发布

阅读量22

点赞数

CC 4.0 BY-SA版权

分类专栏： SPECOM 2023精华解读文章标签：语音障碍识别机器学习频谱特征

本文链接：https://blog.youkuaiyun.com/gitlab7runner/article/details/151701575

SPECOM 2023精华解读专栏收录该内容

67 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

语音障碍识别：机器学习算法的比较研究

研究背景与目标

近年来，机器学习算法在语音障碍识别领域的应用显著增加。不同研究使用了不同的数据集、语音特征和分类器来识别语音病理。本研究旨在通过提取持续元音 /a/ 的频谱特征，训练多种机器学习模型，区分健康和病理性语音样本。

相关工作

此前的研究探索了多个数据集，如 SVD、MEEI 和 AVPD；多种语音特征，包括频谱滚降、频谱质心、频谱对比度、色度、MFCC 和 ZCR；以及多种分类器，如 RF、kNN、SVM 和 GMM 等用于语音病理识别。部分研究成果如下：
- Al - Nasheri 等人使用持续元音 /a/ 的样本，通过自相关和熵方法提取特征训练 SVM 分类器，在 MEEI、SVD 和 AVPD 数据集上分别获得 99.54%、99.53% 和 96.02% 的分类准确率。
- AL - Dhief 等人提出的 OSELM 算法，使用从 SVD 中提取的 MFCC 特征检测语音病理，准确率、灵敏度和特异性分别达到 85%、87% 和 87%。
- Gupta 使用 33 个特征训练 LSTM 模型，灵敏度、特异性和平均召回率分别为 22%、97% 和 56%。
- Syed 等人对 CNN 和 RNN 进行比较分析，在病理样本上分别获得 87.11% 和 86.52% 的准确率。
- Omeroglu 等人从音频和 EGG 信号中提取特征，使用 CNN 提取深度特征，训练 SVM 模型获得 90.10% 的准确率。
- Fan 等人使用 SMOTE、Borderline - SMOTE 和 ADASYN 解决 MEEI 数据库的类不平衡问题，提出的 FC - S