
信号处理/语音识别
xiaoding133
My name is Ma dingding. I’m a student, and software cultivator living in NanJing. This is my software development blog. I also study the aspect of speech recognition.If you are on Weibo,you can follow me at @xiaoding133.
展开
-
HTK工具的安装
首先下载HMM 的开发包HTK,现在的版本是3.4.1.可以从CMU的官网进行下载。http://htk.eng.cam.ac.uk/,下载后解压HTK工具包,我解压后的目录为:D:\htk\ 确保的环境变量Path包含路径:C:\Program Files\Micr原创 2011-09-03 20:33:06 · 6949 阅读 · 11 评论 -
群延迟函数(group delay function)&群延迟滤波器
最近看了许多介绍Group delay function的论文,文章中大篇幅提到Group delay,group delay of digital filters,对这个方面的知识好像还挺有用的,所以想把它记录下来。然后总结下计算Group delay function的步骤。 假设有N个样本的脉冲响应为h(n)的数字滤波器,n为时间序列标号,对该数字滤波器进行离散时间傅原创 2012-11-17 21:02:54 · 29810 阅读 · 2 评论 -
连接词识别的Level Building 算法。。。。。。
看了一篇论文,A Level Building Dynamic Time Warping Algorithm for Connected Word Recognition,IEEE TRANSACTIONS ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, VOL. ASSP-29, NO. 2, APRIL 1981,上面描述了Level Building原创 2011-12-04 12:09:36 · 2267 阅读 · 2 评论 -
用HTK搭建语音识别器实录(TIDigits数据库)
TIDIGITS数据库包含11个孤立数字,分别为one,two,three,four ,five,six,seven,eight,nine,oh,zero.1.数据准备1.1.1 建立任务语法它的任务语法如下:$digit= ( one | two | three | four | five |six | seven | eight | nine | zero | oh );(原创 2012-12-21 21:52:14 · 9822 阅读 · 4 评论 -
HTK工具搭建识别器的总体框架
老早之前就学习了HTK工具,并用于搭建连续语音识别器,但是好久没有用对于一些东西又忘记了,现在由于做实验需要用到HTK,又重新看了一遍,所以把一些大致的东西记录下来,以后可以直接看这个。感觉用HTK搭建识别器,学习一门脚本语言非常重要,如Perl,和Shell..........Hinit:用于对HMM模型的参数进行初始化。HRest: 用Baum-Welch算法对HMM参数进行估计,可以原创 2012-12-21 15:33:44 · 10297 阅读 · 3 评论 -
修改HTK代码,让其支持中文
利用HTK工具包进行语音识别建模时,遇到任务语法中存在中文时候,无法生成对应的底层网络,这样就需要对HTK源码的部分内容进行修改,以下是我对HTK源码HParse及HVite部分内容改动记录,希望对有需要的人有帮助!自己也做个备份!添加下面函数static int IsSpace(char c){if ((c == 0x09) ||( c == 0x0D) || (c == ' '原创 2013-01-10 20:25:31 · 4991 阅读 · 13 评论 -
HTK之决策树聚类
可以毫不夸张的说,没有聚类的成功应用,就不会有今天的连续语音识别率(虽说不是很高)。由于语流中语音的变体十分丰富,为了能够足够精确的描述这些变体,人们往往必须设计一个较为复杂的语音单元(比如上下文音素单元)。可是这样,问题就出现了,实际上,我们可以用于训练的语音数据总是有限的,往往不能够满足复杂语音单元训练的要求,这就形成了模型复杂度(模型描述的准确度)和训练数据规模之间的矛盾。一味的增加训练转载 2013-01-10 20:46:24 · 7753 阅读 · 3 评论 -
研究生期间有关语音识别方面资料的收集
研究生期间收集了一些有关语音识别方面的网址,感觉非常有用,保留一下,留到以后用。国际最顶尖会议:ICASSP:International Conference on Acoustics, Speech and Signal Processing ICSLP:International Conference on Semiconductor Laser and Photonics E原创 2013-04-24 09:26:09 · 5894 阅读 · 4 评论 -
微软Wav音频文件解析
WAVE PCM音频格式 Wave文件是微软RIFF标准存储的多媒体文件的一种形式。一个RIFF文件包含一个文件头和多个数据块(chunks).WAVE文件是包含一个“WAVE”数据块,其包含两个子的数据块,一个是“fmt ”块,和”data”块。“fmt ”块指名数据的格式,而“data”块包含实际的取样值。下图为WAVE语音文件的经典格式:原创 2013-04-24 09:56:15 · 2177 阅读 · 0 评论 -
MATLAB信号处理工具箱函数
转:http://wang5151ying.blog.163.com/blog/static/7855355220085213055721/ 函数说明波形产生和绘图chirp产生扫描频率余弦diric产生Dirichlet或周期sinc信号转载 2012-11-17 20:14:00 · 11395 阅读 · 0 评论 -
语音特征参数MFCC计算的详细过程
注:老早之前就在看语音信号处理方面的知识,每当过了很久都会忘记,由于之前对语音特征MFCC提取的流程还是非常清楚的,但是对于一些细节以及一些原理一些的东西还是不是很明白,通过这次的总结,我终于明白的其中的技术细节以及设计方法,包括滤波器的设计,以及参数的具体意义,希望这个总结能给自己增加更多的印象,课本上好像对各个三角滤波器的设计没有过多的讲解,也没讲流程,希望这里的总结能有所帮助。一、MFC原创 2012-10-24 14:10:32 · 58945 阅读 · 10 评论 -
HTK3.4.1在Win7 下HSLab **.sig使用无效的解决办法
在Windows 7上安装了HTK3.4.1版本,安装后使用HSLab 01.sig,提示如下错误: ERROR [+6870] MakeXGraf: Not compiled with X11 support: use HGraf.X.cFATAL ERROR -原创 2011-09-04 12:51:55 · 4196 阅读 · 17 评论 -
HTK 中HLEd命令提示错误: LoadHTKList: Label Name Expected
最近用HTK做连续中文数字识别,用HLEd 把单词级真值文本(word level MLF)转成音素级真值文本(phone level MLF)时候,出现如下错误: ERROR [+6550] LoadHTKList: Label Name Expected FATAL ERROR - Terminating program HLEd 原因是我在建立任务语法的时候使用了中文数字原创 2011-12-07 20:03:20 · 3590 阅读 · 4 评论 -
HTK HHED命令错误原因
最近在使用HTK的HHED命令对HMM模型进行编辑的时候出现如下错误:WARNING [-2637] HeaviestMix: mix 4 in n2-O+sh2 has v.small gConst [-140000002048.000000] in HHEd解决的办法是:在训练后再添加HMM模型的混合高斯数。。。。。。。。。。。。原创 2011-12-09 21:40:54 · 2420 阅读 · 2 评论 -
语音识别的基本方法
一般来说,语音识别的方法有三种:基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网络的方法[1]。(1)基于语音学和声学的方法该方法起步较早,在语音识别技术提出的开始,就有了这方面的研究,但由于其模型及语音知识过于复杂,现阶段没有达到实用的阶段。通常认为常用语言中有有限个不同的语音基元,而且可以通过其语音信号的频域或时域特性来区分。这样该方法分为两步实现:第一步,分转载 2012-03-16 15:18:07 · 17459 阅读 · 0 评论 -
DFT分析连续非周期信号注意事项
1. 抽样频率对DFT分析信号的频谱影响较大,因为它直接影响频谱混叠的程度。抽样频率必须大于2倍信号最高频率。2.栅栏现象与频率的分辨率有关,因为离散傅里叶变换是傅里叶时间变换在[0,2pi)之间等间隔抽样,当抽样的点数少时,则不能反应其全部细节,导致栅栏现象。克服该现象的方法之一就是在截断的长度为N的序列后补零,构成一个长度为L>N的序列,然后进行DFT运算。补零只能提高观察分辨率,但不能增原创 2012-06-19 16:14:16 · 4571 阅读 · 0 评论 -
语音信号的产生模型
1.语音的产生 a.有声激励:声门关闭。气流迫使声门周期的打开和关闭产生浊音或一些元音。该周期的倒数为“基音频率”(fundamental frequency),该频率在80Hz-350Hz。 b.无声激励:声门打开并且穿过嘴的一个小的空间,该过程产生清音,如同噪声信号,该信号的频谱由该小空间所处的位置。 c.瞬时激励: 嘴中的气流压在嘴突然原创 2011-11-16 21:04:30 · 7886 阅读 · 0 评论 -
HMM模型的Levelbuilding 算法,求改正
在论文“A Speaker-Independent, Syntax-Directed, Connected Word Recognition System Based on Hidden Markov Models and Level Building”中提到动态规划来解决HMM连接词识别问题,文中提到:上面的一步已经实现,在第二层的动态规划中,有点迷惑了。。详原创 2011-12-20 14:28:47 · 1198 阅读 · 0 评论 -
语音信号的短时自相关序列求解以及xcorr与autocorr问题
对于语音来说,短时自相关函数分析是一个重要的方法,能够用来求得浊音的基音周期,也可以用来求得语音识别中的特征参数。它的短时自相关函数为: 但是,在计算短时自相关时,窗选语音段为有限长度N,而求和上限为N-1-k,因此当k增加时可用于计算的数据就越来越少了,从而导致k增加时自相关函数的幅度减小。为了解决这个问题,提出了语音修正的短时自相关。修正的短时自相关函数原创 2012-10-21 18:24:59 · 17383 阅读 · 2 评论 -
鲁棒性语音识别系统设计与实现
本文主要采用matlab和C语言设计并实现了一个鲁棒性语音识别实验系统,通过该系统验证各种抗噪语音特征在不同信噪比的噪声环境下的识别率,并详细介绍了系统的结构以及开发工具与平台,最后介绍了系统的功能、实验流程以及该系统的实现。系统演示下载路径:http://pan.baidu.com/s/1o61Kaa2一、系统结构 本文研究的是非特定人鲁棒性语音识别,采用的是小原创 2015-05-24 17:38:46 · 6630 阅读 · 1 评论