37、利用GMFCC特征提高视听关键词识别系统准确率

oo7890

于 2025-08-24 10:49:11 发布

阅读量29

点赞数

CC 4.0 BY-SA版权

分类专栏： SPECOM 2023前沿之声文章标签： GMFCC AVKS系统关键词识别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/oo7890/article/details/151702373

SPECOM 2023前沿之声专栏收录该内容

59 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

利用GMFCC特征提高视听关键词识别系统准确率

在当今的科技领域，关键词识别系统在诸多实时应用中发挥着重要作用，如语音助手、客服服务和智能音箱等。然而，在嘈杂环境中，由于语音质量下降，这类系统的性能会受到显著影响，导致关键词检测困难。为解决这一问题，视听关键词识别（AVKS）系统应运而生，它结合了音频和视觉特征，以提高关键词检测的准确性。

研究背景与动机

传统的关键词识别系统主要依赖音频特征，如梅尔频率倒谱系数（MFCC）。但在嘈杂环境中，语音质量下降，仅依靠音频特征难以准确检测关键词。因此，研究人员引入视觉特征作为补充信息，开发了AVKS系统。然而，目前大多数AVKS系统仍主要使用MFCC作为音频特征，对激励源特征的探索较少。激励源信息可能有助于区分具有相似声道特征的音素，从而提高关键词检测的准确性。

相关工作

已有一些研究致力于开发AVKS系统，以下是一些相关工作的总结：
| 方法 | 准确率（%） |
| ---- | ---- |
| 基于HMM的AVKS | 78 |
| 基于HMM垃圾模型的AVKS | 75.1 |
| 两步策略基于HMM的AVKS | 80.5 |

这些研究主要关注视觉特征的改进，而忽略了激励源特征在AVKS任务中的潜力。

数据库描述

本研究使用了第2届“CHiME”挑战赛音频数据库的第1轨道的训练数据集。该数据库的话语结构如下：
[命令(4)] [颜色(4)] [介词(4)] [字母(25)] [数字(10)] [副词(4)]

数据库包含34位说话者（18男，16女）的语音数据，并

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。