基于隐马尔可夫模型的梅尔频率倒谱系数在噪声环境下说话人识别系统中的应用
1. 引言
声音是生物特征识别中一种有效且高效的特征量。然而,声音是一个多维度融合的现象,受到诸多因素的影响,如说话人的特征(发音器官配置、情绪、健康状况、年龄、性别、方言)、语言以及环境(背景和传输介质)等。这导致目前已开发的系统在实际情况下难以良好运行。
本研究旨在探索高阶统计量(HOS)和梅尔频率倒谱系数(MFCC)作为特征提取方法,并将其与隐马尔可夫模型(HMM)相结合,构建一个更鲁棒的说话人识别系统,尤其针对高斯噪声环境。研究重点集中在说话人识别系统的特征提取部分,分类过程采用HMM,这是一种在语音处理中广泛应用且效果良好的技术。
研究首先通过实验证明了传统基于功率谱的MFCC在噪声环境下的局限性,接着对相关问题进行分析,提出基于HOS的提取技术以解决这些问题,最后通过实验验证所提方法的有效性。实验数据来自10个人,每人以不同方式说出“PUDHESA”这个短语80次,使用了不同压力、时长、情绪、强弱的语音信号。为了构建对噪声更鲁棒的模型,在每个原始信号中添加了信噪比(SNR)分别为20 dB、10 dB、5 dB和0 dB的高斯噪声信号。
2. 说话人识别系统概述
2.1 系统流程
说话人识别是自动确定输入语音信号所有者的过程。系统的输入是声波信号,首先进行采样,将模拟语音信号转换为数字信号,然后进行量化和编码,去除静音部分后,将数字信号输入特征提取模块。语音信号按帧读取(每帧时长通常为5 ms到100 ms),相邻帧有一定重叠。在每帧中进行加窗处理,并继续进行特征提取,提取的特征将输入分类器模块进行识别。
一般
超级会员免费看
订阅专栏 解锁全文
439

被折叠的 条评论
为什么被折叠?



