多特征集融合策略用于鼾声分类
1. 数据介绍
鼾声数据来自德国的 33 个医疗中心,所有的慕尼黑 - 帕绍鼾声语料库(MPSSC)数据都保存为 wav 文件(16 位,16000 Hz)。鼾声事件基于 VOTE 分类进行标注,该分类方案区分上气道可能涉及的四个结构:软腭水平(V)、包括腭扁桃体的口咽区域(O)、舌根(T)和会厌(E)。
MPSSC 包含从 219 个独立受试者收集的 828 个鼾声事件,总时长为 1250.11 秒,平均时长为 1.51 秒(范围从 0.73 到 2.75 秒)。数据分布信息如下表所示,存在数据不平衡问题。
| 类别 | 训练集 | 开发集 | 测试集 | 总计 |
| ---- | ---- | ---- | ---- | ---- |
| V | 168 | 161 | 155 | 484 |
| O | 76 | 75 | 65 | 216 |
| T | 8 | 15 | 16 | 39 |
| E | 30 | 32 | 27 | 89 |
| 总计 | 282 | 283 | 263 | 828 |
2. 特征提取
使用 openSMILE(开放式语音和音乐大空间特征提取)工具包提取特征,它是一个高度模块化和灵活的声学特征提取工具包,广泛应用于信号处理和机器学习。通过不同的配置文件可以提取多个特征,这里提取了以下三个特征集:
- ComParE :于 2013 年 INTERSPEECH 的 ComParE 中首次发布,包含 6373 个特征,包括能量、频谱、MFCC 以及与发声相关的低级描述符(
超级会员免费看
订阅专栏 解锁全文
183

被折叠的 条评论
为什么被折叠?



