
kaldi
文章平均质量分 52
jinmingz
ASR SRE DeepLearning
展开
-
kaldi或者eesen atlas编译失败
OS: 16.04CUDA: 8.0你是不是遇到了这个问题,执行./install_atlas的时候一直报错:make[3]: **[atlas_run] Error 44 ....在stackflow上有这个问题,是由于kaldi默认的是atlas-3.10.0, 而这个版本是不稳定的,需要使用最新的版本: atlas-3.10.2, 不确定是不是因为系统是16.04的原原创 2016-07-27 00:51:59 · 2478 阅读 · 0 评论 -
说话人识别中的VAD
本文根据kaldi中的vad的算法 kaldi/src/ivector/voice-activity-detection.cc以及网上的一些资源来总结一下这个知识点。首先VAD的全称是:Voice Activity Detection (语音激活检测), 能够区分传输语音信号中的语音信号和背景噪音, 当然还能在通信中区分语音和静默段能够区分传输语音信号中的语音信号和背景噪音,避免带原创 2016-08-27 22:22:17 · 15294 阅读 · 3 评论 -
wav 文件按起止时间切割
step1: sox不能直接切,先转化为 sph os.system(‘sox {} -f sph {}’.format(wav_filepath, sph_filepath))step2: 用kaldi 的 sph2pipe 工具切 os.system(‘/data2/zjm/kaldi_env/tools/sph2pipe_v2.5/sph2pipe -t {0}:{1} {} {}’.f原创 2017-10-20 22:00:46 · 3972 阅读 · 0 评论 -
Kaldi中的plda的训练以及computer-socre
最近一直有个疑惑,plda是怎么训练的?就是plda是怎么计算得分的? 又是怎么根据得分进行判断说话人的? EER跟准确率之间又是什么关系? 时间很紧,论文还没写,需要静一静,好好弄明白这个来清醒一下。 提取完i-vector之后,计算出每一句话的ivector特征,然后计算了sreivector-mean scp:exp/ivectors_sre/ivector.scp exp/ivector原创 2016-10-16 23:37:32 · 9729 阅读 · 1 评论 -
EER(等概率错误)
Equal Error Rate , 这个在说话人识别,说话人确认中最常用的评价标准,之前不是很理解,为什么不用直接的错误率,不管是识别还是确认,错了就错了,对了就对了,然后统计一下,计算错误率不是更直接嘛,为什么要制造nontarget target , 然后去计算EER? 还记得trials文件嘛,还记得没有cvs文件自己伪造trials文件嘛, 还记得不明白为什么要制造50%或者80%原创 2016-09-16 23:22:39 · 18913 阅读 · 1 评论 -
kaldi基于GMM做分类问题
对于每个类别的GMM有几种思路: 第一是将所有训练数据按类别分开,每类的数据训练一个GMM模型 第二是将所有的数据训练一个UBM模型,然后将训练数据按类别分开,用MAP去训练每个类别的GMM(对角UBM的MAP貌似kaldi 没有) 第三就是将所有的数据训练一个UBM模型,然后不做MAP,直接用训好的UBM所GMM的初始值,然后将所有训练数据按类别分开,训练三个GMM模型(在第一种方法的GMM原创 2017-02-15 16:56:47 · 5346 阅读 · 3 评论 -
kaldi工具:est-pca 和 paste-feats
感觉kaldi的一些工具的说明不是很详细,经常会用错,这就需要看看相近的几个命令都尝试一下。 我现在有一个需求: 需要把128维的bottleneck features 用PCA降到26维,然后再把这26维与之前的fbank的特征做一个拼接,生成每一帧都是26+26=52维的特征,yeah, 这就是tandem-feature. 现在bottleneck feature已经okay了(这一步其实原创 2016-10-06 18:22:23 · 2262 阅读 · 1 评论 -
kaldi跑timit的注意事项
今天用kaldi跑了一天调了一天,真是累屎鸟,遇到各种问题,每一个问题都自己找好久,还好有几位大神相助,非常感谢, 下面总结一下:1、首先要改数据集的路径,这个是必须的2、irstlm 的错误问题,然后注意把extras下面的env.sh的关于irstlm的环境变量写到 tools 下面的env.sh, 因为path.sh是source的tools下面的环境env.sh3、关于单机跑t原创 2016-06-14 20:06:50 · 2316 阅读 · 0 评论 -
kaldi重新编译报错
这个其实只是记录一下,之前用过,忘了,刚才郁闷了半个小时如果我们想修改部分源码,只需要编译改的那部分就好了,比如编译gmmbin下的某个文件,不过这时候改完需要三个步骤,报错主要是忘了depend.error:gmm-init-mono.o: In function `kaldi::ReadSharedPhonesList(std::__cxx11::basic_string<char, std::原创 2016-11-23 21:57:26 · 2615 阅读 · 0 评论 -
Error: utils/validate_data_dir.sh: file data/sre/utt2spk is not in sorted order or has duplicates
之前也遇到过,就是没有排序或者是有重复的,加一个 sort -u 就好了。但是今天这个错误和另一个错误交替出现,调了两个多小时,差点砸笔记本了,还有一个错误是: Error : ” utt2spk is not in sorted order when sorted first on speaker-id fix this by making speaker-ids prefixes of原创 2016-10-25 00:32:31 · 6360 阅读 · 3 评论 -
kaldi常用的工具
本文部分参考自: http://www.360doc.com/content/15/0101/10/13208159_437287894.shtml样例是用自己的数据跑的,改编自wsj,文件名称不是很标准,但重点是工具的使用,加路径是为了好理解,内容暂时不解释,以后有时间来补充。这个文档太棒了,理解每一个步骤,语音识别的整个流程也就懂了,太赞1. 查看生成的后缀为fst的状态机文件,比原创 2016-09-14 20:28:25 · 11623 阅读 · 0 评论 -
LDA(线性判别式分析)以及与PCA降维之间的区别
reference: http://blog.youkuaiyun.com/warmyellow/article/details/5454943首先说一下协方差矩阵, 之前大家肯定都学过,忘了的可以稍微看一眼:LDA是多个类的之前的判别,一个类之间的数据我们可以用方差或者标准差,但是多个类之间显然不能再用var or std-var, 这时候就要用到cov.协方差: cov(X, Y原创 2016-10-12 14:51:00 · 9915 阅读 · 0 评论 -
DBN+DNN的结构问题(含bottleneck)
假期之前遇到一个问题一直在困扰着我,先用DBN做pretrain的时候,那么DNN的层数以及每层的结构该怎么设计呢?匆匆忙忙的三四天假期结束了,先解决一下这个问题。先来看一下,之前做的一个wsj的一个demo,用的原始的配置: hidlayers=2 hiddims=512 #训练dbn的脚本,两层的RBM 隐层维数是512 steps/nnet/pretrain_dbn.sh --r原创 2016-10-03 19:04:00 · 5289 阅读 · 0 评论 -
kaldi直接使用FFT频谱
#!/bin/bashif [ -f path.sh ]; then . ./path.sh; fi . parse_options.sh || exit 1;cmd=run.plnj=10logdir=make_fftname=testscp=data/test/wav.scpfftdir=fftmkdir -p fftmkdir -p make_fftfor n in $(原创 2016-09-21 21:07:41 · 1992 阅读 · 0 评论 -
kaldi常用工具(原理分析)
kaldi monophone 相关工具原理介绍原创 2016-09-15 20:22:11 · 9705 阅读 · 0 评论 -
kaldi或者eesen中错误:ERROR (compute-fbank-feats:Read():wave-reader.cc:198
今天跑eesen自己的数据,好不容易调了一晚上把数据准备搞好了,然后在提取特征的时候报了一个数据格式的错误:WARNING (compute-fbank-feats:Read():feat/wave-reader.h:149) Exception caught in WaveHolder object (reading).WARNING (compute-fbank-feats原创 2016-07-31 03:24:08 · 3098 阅读 · 2 评论 -
kaldi中跑thchs30
按照github上的版本直接跑的过程中遇到两个问题:在 make word graph的过程中字典正确的没有拷贝到本地: 在 14.04 下面没有问题,在16.04 下面出现问题了。 cat $thchs/resource/dict/lexicon.txt $thchs/data_thchs30/lm_word/lexicon.txt | grep -v '<s>' | grep -v '<原创 2017-12-17 23:20:50 · 2219 阅读 · 1 评论