摘 要
在通信技术的不断进步发展下,语音识别技术也取得了令人瞩目的成就,人们对语音识别技术的性能要求也越来越高。语音识别技术是通常以人们说话的内容作为识别对象的一项技术,凭借其安全高效、价格低廉、易于实现等特点,能与其它的语音处理技术结合从而创造出更复杂且实用性高的应用,对于计算机和社交生活的发展,其重要性日益突出。本文所研究的课题是基于Matlab的语音识别系统设计的研究,确切地来说是关于特定人的语音识别设计的研究。
本文主要介绍并运用了高斯混合模型(GMM)和MFCC(Mel频率倒谱系数)这两个算法来实现语音识别的过程。用高斯函数最大程度的近似表示信号的概率。首先,对语音信号进行预处理;其次通过Mel倒谱系数MFCC提取语音特征参数;设置一个模板库,用来存储大量并已提取特征参数的语音信号;将待识别的语音信号与模板库中的语音信号经过同一通道后进行比较,最终得到比较结果。由于在程序中难以观察到结果,故添加了MATLAB GUI界面,用户可以通过操作MATLAB GUI界面中的按钮观看到语音识别的基本过程,并且最终的识别结果也会清晰的显示在界面上。本次设计经过多次的实际操作,语音识别正确率可达百分之九十左右。
一、课题研究主要内容
(1)本文主要围绕国内外语音识别技术的研究背景,意义和研究现状。语音识别技术之所以吸引了各国科学界的关注的原因,对于人类来说具体的重要意义。
(2)本文对语音识别技术设计系统方案,根据软件代码编写思路,介绍了高斯混合模型(GMM)的数学原理和算法及语音信号的预处理、语音信号的特征参数提取,语音识别的过程,还介绍了MFCC的算法。
(3)最后对程序的运行和设计做了简要介绍,也表明对本次毕业设计的总结及对课题设计的展望。
二、高斯混合模式及语音信号的预处理
2.1 高斯混合模式(GMM)介绍与数学原理
多个高斯模型的叠加就构成了所谓的高斯混合模型(GMM),高斯混合模型可以用概率来进行划分、量化任何事物,概率越高越属于这类事物,且可以拟合出任意的分布图形。任何事物的数学表现形式都是曲线,若干个高斯概率密度函数的和可以组合成一个事物,所以它的表达能力很强。任意曲线都可以用高斯函数来表示,曲线是用来描述一组数据的结果,与以往的存储数据比较,通过高斯混合模型更容易表达数据,且有完整的数学表达公式。所以如果用一条曲线来表示语音信号,那么这样的曲线就有了现实的意义。并且GMM能满足在数据维数增加的情况下也能对其进行训练分类,这也是语音识别运用到高斯混合模型的一个重要原因。
高斯混合模型(GMM)的数学原理是用高斯函数近似地表示曲线或曲面。
在二维的情况下,若干个高斯函数组合起来可以