
ASR
文章平均质量分 68
jinmingz
ASR SRE DeepLearning
展开
-
srilm建立语言模型
reference: http://blog.youkuaiyun.com/zhoubl668/article/details/8365716测试数据可以从这个网站下载: http://www.statmt.org/europarl/ , 我测试下载的是 parallel corpus Bulgarian-English. 1.生成n-gram计数文件./ngram原创 2016-07-28 17:40:00 · 3690 阅读 · 0 评论 -
说话人识别中的VAD
本文根据kaldi中的vad的算法 kaldi/src/ivector/voice-activity-detection.cc以及网上的一些资源来总结一下这个知识点。首先VAD的全称是:Voice Activity Detection (语音激活检测), 能够区分传输语音信号中的语音信号和背景噪音, 当然还能在通信中区分语音和静默段能够区分传输语音信号中的语音信号和背景噪音,避免带原创 2016-08-27 22:22:17 · 15294 阅读 · 3 评论 -
DTW(一)
reference: http://blog.youkuaiyun.com/zouxy09/article/details/9140207 http://www.cnblogs.com/tornadomeet/archive/2012/03/23/2413363.html http://www.fon.hum.uva.nl/david/ba原创 2016-10-05 15:58:20 · 1404 阅读 · 0 评论 -
HMM(隐马尔可夫模型)
参考自: http://blog.youkuaiyun.com/by21010/article/details/51506292目前的语音识别系统往往采用隐含马尔科夫模型(Hidden Markov Model,HMM)建模,表示某一语音特征矢量序列对某一状态序列的后验概率。隐含马尔科夫模型是一种概率图模型,可以用来表示序列之间的相关关系,常常被用来对时序数据建模。 隐含马尔科夫模型是一种带权有向原创 2016-06-29 22:54:29 · 5749 阅读 · 2 评论 -
wav 与 pcm 互转
语音wav转pcm可以用ffmpeg工具,也可以自己写,主要是要了解pcm和wav的格式以及头信息的: pcm 是没有头信息的,wav有44字节的头文件,所以去掉44字节的头文件就okay了import osimport numpy as npf = open("sw02725-A_018202-018583#sw02141-B_013798-014064.wav")f.seek(0)f.r原创 2017-05-11 21:11:45 · 25710 阅读 · 3 评论 -
MFCC 过程理解
---最近看信号处理相关的知识,会随时补充或者更正之前写的不对的地方,或者是补充一些自己的理解----ref: https://www.zhihu.com/question/27268668 等。 语音识别中常用的特征提取方法: 声学特征有线性预测编码(Linear Predictive Coding,LPC),梅尔频率倒谱系数(Mel-frequency Cepstru原创 2016-06-16 14:39:01 · 18846 阅读 · 0 评论 -
kaldi工具:est-pca 和 paste-feats
感觉kaldi的一些工具的说明不是很详细,经常会用错,这就需要看看相近的几个命令都尝试一下。 我现在有一个需求: 需要把128维的bottleneck features 用PCA降到26维,然后再把这26维与之前的fbank的特征做一个拼接,生成每一帧都是26+26=52维的特征,yeah, 这就是tandem-feature. 现在bottleneck feature已经okay了(这一步其实原创 2016-10-06 18:22:23 · 2262 阅读 · 1 评论 -
kaldi跑timit的注意事项
今天用kaldi跑了一天调了一天,真是累屎鸟,遇到各种问题,每一个问题都自己找好久,还好有几位大神相助,非常感谢, 下面总结一下:1、首先要改数据集的路径,这个是必须的2、irstlm 的错误问题,然后注意把extras下面的env.sh的关于irstlm的环境变量写到 tools 下面的env.sh, 因为path.sh是source的tools下面的环境env.sh3、关于单机跑t原创 2016-06-14 20:06:50 · 2316 阅读 · 0 评论 -
k-means算法
有时候GMM-UBM的初始化可以采用k-means方法,k-means的原理很简单,但是也存在很多的优缺点。 K-means算法是硬聚类算法,是典型的基于原型的目标函数聚类方法的代表,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则。(百度百科) 算法的基本过程: 1.首先根据问题的规模和要求,确定要分成几类,这个K值是必须给出的。 K值的给出很关键,这原创 2016-09-14 22:46:42 · 1057 阅读 · 0 评论 -
音频信号中采样率和比特率以及采样编码的问题
采样率和比特率:cmd: soxi aa.mp3Input File : 'aa.mp3'Channels : 1 Sample Rate : 44100 Precision : 16-bitDuration : 00:01:11.95 = 3172951 samples = 5396.18 CDDA sectorsFile Size原创 2016-10-23 15:40:18 · 5079 阅读 · 0 评论 -
kaldi常用的工具
本文部分参考自: http://www.360doc.com/content/15/0101/10/13208159_437287894.shtml样例是用自己的数据跑的,改编自wsj,文件名称不是很标准,但重点是工具的使用,加路径是为了好理解,内容暂时不解释,以后有时间来补充。这个文档太棒了,理解每一个步骤,语音识别的整个流程也就懂了,太赞1. 查看生成的后缀为fst的状态机文件,比原创 2016-09-14 20:28:25 · 11623 阅读 · 0 评论 -
带宽和采样频率
今天被虐了,没有学过信号处理,在平时的学习中也没有注重这些基础知识. 带宽:带宽是反映信号频率通过能力,带宽越大,对信号中的各种频率成分(特别是高频成分)能准确有效地放大与显示,也就较为准确,如果带宽不够,那就会损失很多高频成分,信号自然就显示不准确了,出现较大误差。 在一秒的时间内最大最多能通过的信号,所以带宽要大于等于最高频率fmax. 采样率: 而采样率是将模拟量转换为数字量时对信号转原创 2016-09-28 15:19:49 · 57269 阅读 · 2 评论 -
LDA(线性判别式分析)以及与PCA降维之间的区别
reference: http://blog.youkuaiyun.com/warmyellow/article/details/5454943首先说一下协方差矩阵, 之前大家肯定都学过,忘了的可以稍微看一眼:LDA是多个类的之前的判别,一个类之间的数据我们可以用方差或者标准差,但是多个类之间显然不能再用var or std-var, 这时候就要用到cov.协方差: cov(X, Y原创 2016-10-12 14:51:00 · 9915 阅读 · 0 评论 -
DBN+DNN的结构问题(含bottleneck)
假期之前遇到一个问题一直在困扰着我,先用DBN做pretrain的时候,那么DNN的层数以及每层的结构该怎么设计呢?匆匆忙忙的三四天假期结束了,先解决一下这个问题。先来看一下,之前做的一个wsj的一个demo,用的原始的配置: hidlayers=2 hiddims=512 #训练dbn的脚本,两层的RBM 隐层维数是512 steps/nnet/pretrain_dbn.sh --r原创 2016-10-03 19:04:00 · 5289 阅读 · 0 评论 -
GMM(高斯混合模型)以及简单实现
本文主要是学习比较,主要参考这两篇博文,写的非常通俗易懂: http://blog.pluskid.org/?p=39 http://freemind.pluskid.org/machine-learning/regularized-gaussian-covariance-estimation/ http://blog.youkuaiyun.com/gugugujiawei/article/detail原创 2016-09-04 22:34:20 · 13587 阅读 · 1 评论 -
kaldi常用工具(原理分析)
kaldi monophone 相关工具原理介绍原创 2016-09-15 20:22:11 · 9705 阅读 · 0 评论 -
语音识别中的声学模型(AM)和语言模型(LM)
本文主要受参考自: http://blog.youkuaiyun.com/by21010/article/details/51506292 以及: https://www.zhihu.com/question/35833334最近看essen源码,感觉对于ASR 的一下之前的比较基础的算法很生疏, 在知乎上看到这个链接,感觉讲的比较通俗易懂,拿来再理解一下。decoder是根据声学模型和语音模型,将转载 2016-06-29 23:12:01 · 43934 阅读 · 1 评论 -
kaldi中跑thchs30
按照github上的版本直接跑的过程中遇到两个问题:在 make word graph的过程中字典正确的没有拷贝到本地: 在 14.04 下面没有问题,在16.04 下面出现问题了。 cat $thchs/resource/dict/lexicon.txt $thchs/data_thchs30/lm_word/lexicon.txt | grep -v '<s>' | grep -v '<原创 2017-12-17 23:20:50 · 2219 阅读 · 1 评论