
声纹识别
RoadmanG
英国留学四年,音频算法工程师,主要研究方向在去混响,深度学习单/多通道降噪和回声消除
展开
-
WAV文件数据解析(4.10更新一点小代码)
作为一个初级的算法和声纹的工程师,写个blog记录一下自己近期所接触的知识点,作为日后参考和复习用首先都是文本,后期有空再加图片和改格式,很多内容都是通过被人的blog参考和整理得来。日后慢慢的更新声纹识别SRE的算法以及机器学习的算法和数据分析的实践更新:最近项目测了个模型,刚好在读取文件中尝试写了一下关于读取WAV文件里面纯音频的C++代码,很少的行数,但是逻辑应该蛮清楚的。wav文件的解析只...原创 2018-03-30 15:50:22 · 5315 阅读 · 2 评论 -
Kaldi 对说话人识别GMM-UBM的MAP 参数更新和对数似然概率解读
写博客=写日记,为自己记录工作进度和理论知识,如果有恰好路过的大牛经过,可以驻足看看我的理解本人刚接触说话人识别不到一个月,因工作需求研究了kaldi。大致弄懂了GMM-UBM,正在研究Ivector的理论和实践.虽然个人更喜欢数据分析,数据挖掘和传统的机器学习。但能学到不同领域的AI知识拓宽知识广度也是自我成长。若有会跳街舞的(小弟曾经英国某城市冠军),能喝酒的,蹦迪的,喜欢python多过C+...原创 2018-04-12 19:16:33 · 3714 阅读 · 5 评论 -
说话人识别开集open-set和闭集close-set的区别
先引用知乎上 @LEON晋 大神解释的说话人识别对说话人准确率判断的两个评分标准:在一批本该全部正确(TRUE)的列表中出现几个没识别出正确的语音,这个就是错误拒识FR(False Rejection),是Miss的;在一批本该全部错误(Flase)的列表中出现了几个没识别出错误的语音,就是错误的语音被认为对了,FA(False Acceptance),是Flase Alarm的。然后各自占的比例...原创 2018-04-12 20:13:27 · 7841 阅读 · 0 评论 -
MFCC一些知识与Kaldi中的MFCC特征解读
因为想用Kaldi去实现一个GMM-UBM的说话人识别和loglike打分,所以想把Kaldi计算的统计量对一对,看能不能把二进制文件里的数值单独拿出来,自己写个代码做结合Kaldi中的MAP做统计量计算,然后再放回去。 但是当把训练好的UBM打开看看,发现他的矩阵不是人们常说的MFCC生成的特征向量是39维而是60维,所以特意返回去再把MFCC和信号处理给梳理一遍。并且把ka...原创 2018-04-20 16:36:38 · 12485 阅读 · 18 评论 -
Kaldi中 声纹识别的流程图
总结了一波Kaldi中声纹识别的流程和所用的可执行文件,.把可执行文件当作一个库来用,自己来仿照这sre08,sre10,或者aishell的run.sh用自己的数据来完成自己的声纹识别系统就好.自己还在研究,但是说几个我认为比较关键的地方:1.gmm-gselect : 对每帧选择能取得最高likelihood的前n个分量, 其他的分量忽略. 返回的是这些分量的索引,后面计算的时候对于每帧只用这...原创 2018-05-15 12:30:45 · 10128 阅读 · 9 评论 -
PLDA的原理和em训练(为了be user friendly开始用latex写公式)
最近一直在学习和操作PLDA,感觉这个算法太有才了,对身份验证如人脸识别,声纹识别,OCR都有用. 先对自己的工作和面试别人以及被面试有一份感悟:1.数学太重要了,有些人看论文难啃的原因就是公式看不懂,公式看不懂就是数学不好,后面要慢慢补起来2.感觉工程能力太重要,不管是在工作中还是面试,算法最终能否实现还是要看你的手上的活.这是我的弱项,慢慢补3.很多面试官不管候选人简历,直...原创 2018-08-21 14:28:41 · 7725 阅读 · 1 评论 -
GPLDA的LN和各种GPLDA很皮的玩法(有疑问请提出)
gplda也就是我们常说的plda,即假设设本征音和本征信道满足高斯分布而得名.ht-plda:重尾分布的PLDA, 重尾分布是指少量个体作出大量贡献,占大量的资源,假设的是student t 分布在一些论文中可以看到,ivector在HT-PLDA上的表现比GPLDA好,并且HT-PLDA的假设是说话人因子和抖动空间是符合student t 分布,这样就说明ivector中有很多非高...原创 2018-08-21 15:29:26 · 765 阅读 · 0 评论 -
说话人识别/声纹识别学习路径的资料整理,从零学声纹识别
昨天帮新同事讲解了一波说话人识别的理论,并且帮他整理了资料让他学习,这个博客就是把最具有代表性的资料记录下来,前提,我假设你知道啥是MFCC,啥是VAD,啥是CMVN了.说话人识别学习路径无非就是 GMM-UBM -> JFA -> Ivector-PLDA -> DNN embeddings -> E2E首先 GMM-UBM, 最经典代表作: Speaker...原创 2018-09-12 12:09:57 · 10401 阅读 · 25 评论 -
Kaldi sre10, sre16 数据格式
做个记录, 给大多数跑脚本但是又没有官方数据的朋友一起交流讨论:引用自己在知乎的回答:跑kaldi的脚本到最后都是得用自己的数据去训练去测试的, kaldi只需要三个文件utt2spk, spk2utt和wav.scp.具体的你其实可以看看他们做数据的perl脚本,我个人是用python写一个脚本把数据集变成kaldi可读的格式的, 我代码弱智水平都能做,相信大牛的你们也没问题的....原创 2018-11-07 12:34:51 · 4115 阅读 · 17 评论