15、语音特征融合与口吃检测技术研究

最新推荐文章于 2025-10-27 10:42:14 发布

gitlab7runner

最新推荐文章于 2025-10-27 10:42:14 发布

阅读量37

点赞数

CC 4.0 BY-SA版权

分类专栏： SPECOM 2023精华解读文章标签：语音情感识别口吃检测 LFRCC

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/gitlab7runner/article/details/151701451

SPECOM 2023精华解读专栏收录该内容

67 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

语音特征融合与口吃检测技术研究

在语音处理领域，情感识别和口吃检测是两个重要的研究方向。本文将介绍线性频率残差倒谱系数（LFRCC）在语音情感识别（SER）中的应用，以及零时间窗倒谱系数（ZTWCC）在口吃检测中的应用。

1. 分数级融合结果

为了理解不同特征所捕获的互补信息，采用了分数级融合策略。具体步骤如下：
- 尝试不同的α值，范围从0.0到1.0，步长为0.1。
- 使用公式 (L_{Score fused} = \alpha L_{(classifier)feature1} + (1 - \alpha) L_{(classifier)feature2}) 进行融合。
- 其中，(L_{feature1}) 是MFCC或LFCC作为输入特征时分类器的原始分数，(L_{feature2}) 是LFRCC分类器的原始分数。

通过实验发现，MFCC和LFRCC组合在TDNN和ResNet分类器上分别取得了94.87%和87.18%的最佳分类准确率，并且具有最低的等错误率（EER）。这是因为MFCC能有效捕获语音低频区域的频谱信息，而LFRCC能捕获高频区域的激励信息，两者结合可以全面捕获语音信号中的主要情感内容。

2. 分类器级融合结果

分类器级融合使用公式 (L_{Classifier fused} = \alpha L_{(feature)Classifier1} + (1 - \alpha) L_{(feature)Classifier2})。具体操作是将每个分类器（TDNN和ResNet）的原始分数乘以权重α，然后将所有加权输出相加得到最终输出。

实验结果表明，MFCC、LFC

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。