语音特征融合与口吃检测技术研究
在语音处理领域,情感识别和口吃检测是两个重要的研究方向。本文将介绍线性频率残差倒谱系数(LFRCC)在语音情感识别(SER)中的应用,以及零时间窗倒谱系数(ZTWCC)在口吃检测中的应用。
1. 分数级融合结果
为了理解不同特征所捕获的互补信息,采用了分数级融合策略。具体步骤如下:
- 尝试不同的α值,范围从0.0到1.0,步长为0.1。
- 使用公式 (L_{Score fused} = \alpha L_{(classifier)feature1} + (1 - \alpha) L_{(classifier)feature2}) 进行融合。
- 其中,(L_{feature1}) 是MFCC或LFCC作为输入特征时分类器的原始分数,(L_{feature2}) 是LFRCC分类器的原始分数。
通过实验发现,MFCC和LFRCC组合在TDNN和ResNet分类器上分别取得了94.87%和87.18%的最佳分类准确率,并且具有最低的等错误率(EER)。这是因为MFCC能有效捕获语音低频区域的频谱信息,而LFRCC能捕获高频区域的激励信息,两者结合可以全面捕获语音信号中的主要情感内容。
2. 分类器级融合结果
分类器级融合使用公式 (L_{Classifier fused} = \alpha L_{(feature)Classifier1} + (1 - \alpha) L_{(feature)Classifier2})。具体操作是将每个分类器(TDNN和ResNet)的原始分数乘以权重α,然后将所有加权输出相加得到最终输出。
实验结果表明,MFCC、LFC
超级会员免费看
订阅专栏 解锁全文
463

被折叠的 条评论
为什么被折叠?



