Matlab基于VQ的语者识别系统(GUI界面)

最新推荐文章于 2024-11-06 02:45:00 发布

原创

最新推荐文章于 2024-11-06 02:45:00 发布 · 571 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #深度学习 #机器学习 #语音识别 #大数据

基于VQ的语者识别系统通过提取Mel倒谱系数，利用矢量量化和欧氏距离计算进行说话人识别。系统包括语音库识别和实时识别两个功能，识别率分别达到87.5%和89.76%。未来工作将关注程序封装、多用户登录及方言、环境等因素的适应性。

背景

语者识别即为判断说话的人是不是他的使用者。本组用基于VQ的语者识别系统系统模型，通过提取Mel 倒谱系数，制作模板码本与测试者相应参数进行对比，根据阈值判断，差别最小的则认为匹配原训练模板，即测试者与训练者为同一人，否则认为不是同一人。通过此过程实现语者识别功能。在功能上分为两大部分，语者判定以及实施辨别。

在生物辨识技术中，语者辨识是利用人类最自然的口语表达作为辨识身分的依据。语者辨识一般分为语者识别及语者确认，前者是要辨识说话者是谁，后者则是判断说话的人是不是他所宣称的使用者，本项目的研究主题是后者。语者确认常被视为一个假说测定问题，利用似然比例测试方法来解：空假说表示说话者为真正的使用者，替代假说表示其为冒充者。我们可以收集特定使用者的语音数据来训练空假说模型，但替代假说牵涉未知的冒充者，较难模型化。针对此点，传统的作法是收集很多人的语音，训练一个通用背景模型，或是几位与目标使用者声音相似的人的语音，训练数个背景模型，再利用取极大值、取极小值、算数平均或几何平均等方法来结合个别的模型分数。

二、基于VQ的语者识别系统系统模型

基于VQ的说话人识别系统，矢量量化起着双重作用。在训练阶段，把每一个说话者所提取的特征参数进行分类，产生不同码字所组成的码本。在识别(匹配)阶段，我们用VQ方法计算平均失真测度(本系统在计算距离d时，采用欧氏距离测度)，从而判断说话人是谁。

语音识别系统结构框图如图1所示。

图1 语音识别系统结构框图

2.1语者识别的概念

语者识别就是根据说话人的语音信号来判别说话人的身份。语音是人的自然属性之一，由于说话人发音器官的生理差异以及后天形成的行为差异，每个人的语音都带有强烈的个人色彩，这就使得通过分析语音信号来识别说话人成为可能。用语音来鉴别说话人的身份有着许多独特的优点，如语音是人的固有的特征，不会丢失或遗忘；语音信号的采集方便，系统设备成本低；利用电话网络还可实现远程客户服务等。因此，近几年来，说话人识别越来越多的受到人们的重视。与其他生物识别技术如指纹识别、手形识别等相比较，说话人识别不仅使用方便，而且属于非接触性，容易被用户接受，并且在已有的各种生物特征识别技术中，是唯一可以用作远程验证的识别技术。因此，说话人识别的应用前景非常广泛：今天，说话人识别技术已经关系到多学科的研究领域，不同领域中的进步都对说话人识别的发展做出了贡献。说话人识别技术是集声学、语言学、计算机、信息处理和人工智能等诸多领域的一项综合技术，应用需求将十分广阔。在吃力语音信号的时候如何提取信号中关键的成分尤为重要。语音信号的特征参数的好坏直接导致了辨别的准确性。

2.2特征参数的提取

对于特征参数的选取，我们使用mfcc的方法来提取。MFCC参数是基于人的听觉特性利用人听觉的屏蔽效应，在Mel标度频率域提取出来的倒谱特征参数。