婴儿哭声分类与语音障碍识别的机器学习研究
在医疗领域,婴儿哭声分类和语音障碍识别是两个重要的研究方向。前者有助于通过分析婴儿哭声来检测潜在的健康问题,后者则能辅助医生快速准确地诊断语音障碍。本文将介绍相关研究中使用的特征、模型以及实验结果。
婴儿哭声分类
- 特征提取与模型架构
- 特征集 :研究提出了基于激励源的线性频率残差倒谱系数(LFRCC)特征集,并将其性能与传统的梅尔频率倒谱系数(MFCC)和线性频率倒谱系数(LFCC)进行比较。39维的MFCC和LFCC特征通过30ms的窗口长度和15ms的窗口重叠进行提取,每个特征集包含13维静态特征、13维一阶差分特征和13维二阶差分特征。
- CNN架构 :以下是CNN的架构表:
|输出大小|描述|
| ---- | ---- |
|(39,893,16)|LFCC|
|(19,446,16)|卷积层,16个滤波器,批量归一化(BN),ReLU激活函数|
|(19,446,16)|最大池化,(2,2),丢弃率0.25|
|(19,446,32)|卷积层,32个滤波器,BN,ReLU|
|(9,223,32)|最大池化,(2,2),丢弃率0.25|
|(9,223,64)|卷积层,64个滤波器,BN,ReLU|
|(4,111,64)|最大池化,(2,2),丢弃率0.25|
|(4,111,16)|卷积层,16个滤波器,BN,ReLU|
|(4,111,16)|丢弃率0.25|
超级会员免费看
订阅专栏 解锁全文
16

被折叠的 条评论
为什么被折叠?



