基于GMM的语音识别python实现

该博客介绍了如何使用GMM进行声纹识别的Python实现,作为多媒体课程作业。作者录制3-5个人的语音样本,建立GMM模型,用于识别不同说话者。程序流程包括音频特征提取、GMM模型训练和打分比较。实验发现,GMM打分过程可能通过优化达到更快的速度,同时环境噪音和录音质量对识别准确性有很大影响。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

以下是github 库的README, 原理的话很多csdn大佬已经清楚了,这里只给出实现代码:

地址:GMM-miaogen


课程的多媒体作业,填坑


题目描述:

用录音宝录下3到5个人的谱音每一个,每个人10s到20s,建立GMM声纹识别模板,设置场景–声纹模板内的所有人交替讨论一个话题,大约2分钟,用GMM模型分割识别讲话人的身份。并统计时间。
思路:通过提取音频原本的语音特征形成一个集(聚类)以后,对后来的数据进行概率判断,类似于之前的大作业使用的annoy库中kmeans实现,kmeans利用的是距离,而GMM这里使用的是概率,前者中的K和GMM中Ncomponent也是类似的。

程序流程如下图所示:

程序结果:

result


USAGE:

在sapmle文件夹中放入样本文件,修改main 中的files对应的文件名和对应的name(上一行), 并且在文件夹下 放入被测试文件,修改beTestFile文件,就可以运行了

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值