说话人识别（声纹识别）发展史简单总结——（阶段学习总结，GMM,GMM-UBM,GMM-SVM理解）

最新推荐文章于 2025-04-08 14:59:19 发布

ZengXincs

最新推荐文章于 2025-04-08 14:59:19 发布

阅读量5.8k

点赞数 8

分类专栏： Machine Learning Speaker Recognition

本文链接：https://blog.youkuaiyun.com/weixin_41126303/article/details/110822294

版权

本文的创新点与关键点之一：GMM,GMM-UBM,GMM-SVM的理解

大概是从10月20号开始由于项目需要开始接触说话人识别这一研究方向，这一个多月的时间主要是看论文中文英文，尤其是综述文章，当然也试着了解传统方法背后的思路和原理。经过这段时间的学习，有了一点自己的理解，故分享出来加深自己对理解的把握顺便水水文章。本文先是按照说话人识别发展脉络来展开，然后对五个传统方法进行了解读：

preview — 如图1所示：目前学术界主流将说话人识别发展分为了三个阶段：特征工程，统计模型和深度学习。如果我们按说话人识别的应用方法划分那么可以为：模板匹配，统计模型，深度学习

Ps：本人才疏学浅，肯定有地方理解不到位或者错误，欢迎大家交流和批评指正！

说话人识别发展脉络：

说话人识别的研究始于20世纪30年代[1]，早期的工作主要集中在人耳听辨实验和探讨听音识别的可能性方面。在上个世纪60年代，Bell实验室的 L. G. Kestar 等人通过研究语谱图发现，同一个人所发同一个音的语谱总是比不同人发相同音的语谱更相近，据此他用目视语谱图的方法进行说话人识别，并在同年的文章[2]中提出“声纹”的概念。随后在1963年，Bell 实验室的 S. Pruzansky 提出的基于模板匹配(template matching)和统计方差分析的说话人识别方法[3]，引起信号处理领域许多学者的注意，兴起了说话人研究的高潮。

从 20 世纪 70 年代末至 80 年代末，说话人识别的研究重点转向对声学特征参数的处理以及新的模式匹配方法上。研究者相继提出了线性预测系数（Linear Predictive Coefficient, LPC）[4]、线性预测倒谱系数(Linear Predictive Cepstrum Coefficient, LPCC)[5](4，5参考文献不一定准确，看了很多大佬的综述发现这两个的引用文献都不一样)，梅尔倒谱系数(Mel-frequency Cepstrum Coefficient, MFCC)[6]和感知线性预测系数(Perceptual Linear Predictive, PLP)[7]等说话人识别特征参数。与此同时，动态时间规整法(Dynamic Time Warping, DTW)[8]、矢量量化法(Vector Quantization, VQ)[9]、隐马尔科夫模型(Hidden Markov Model, HMM)[10]、人工神经网络法(Artificial Neural Network, ANN)[11]等技术也被陆续提出，并被广泛应用到说话人识别中，进一步提高了说话人识别性能。

20 世纪 90 年代以后，尤其是 D. Reynolds 对高斯混合模型(Gaussian mixture model, GMM)[12]做了详细介绍后，GMM以其简单、灵活、有效以及较好的鲁棒性，迅速成了当时与文本无关的说话人识别中的主流技术，将说话人识别研究带入一个新的阶段。2000年，D. Reynolds 在说话人确认

最低0.47元/天解锁文章