以下是github 库的README, 原理的话很多csdn大佬已经清楚了,这里只给出实现代码:
地址:GMM-miaogen
课程的多媒体作业,填坑
题目描述:
用录音宝录下3到5个人的谱音每一个,每个人10s到20s,建立GMM声纹识别模板,设置场景–声纹模板内的所有人交替讨论一个话题,大约2分钟,用GMM模型分割识别讲话人的身份。并统计时间。
思路:通过提取音频原本的语音特征形成一个集(聚类)以后,对后来的数据进行概率判断,类似于之前的大作业使用的annoy库中kmeans实现,kmeans利用的是距离,而GMM这里使用的是概率,前者中的K和GMM中Ncomponent也是类似的。
程序流程如下图所示:
程序结果:
USAGE:
在sapmle文件夹中放入样本文件,修改main 中的files对应的文件名和对应的name(上一行), 并且在文件夹下 放入被测试文件,修改beTestFile文件,就可以运行了