
语音识别/理解
文章平均质量分 67
lv_xinmy
这个作者很懒,什么都没留下…
展开
-
安装juicer
由于我第一次安装 JUICER时遇到了很多问题,现在把这些问题都记录下来,给同样第一次安装使用的同学一点借鉴。前面已经安装了Torch3和Tracter,这都是为安装Juicer做的准备,现在安装Juicer也容易了。1,下载源码wget http://juicer.amiproject.org/juicer/sources/juicer-1.0.tar.gz2,编译准备原创 2013-02-01 11:57:48 · 2978 阅读 · 0 评论 -
VAD实现 (三) --- 算法计算流程与框架
在实现VAD算法之前,先给出在这里VAD算法的实现流程和算法框架。调用关系依次是 detect_wav -> detect_frame->process_vad->energy_detect,energy_detect比较复杂,所以暂时不在这里,这只是表示出基本的计算流程和框架int frame_size = 256 ; int sample_rate = 8000 ;// 采样频原创 2013-06-18 11:12:53 · 7618 阅读 · 7 评论 -
语音信号预加重算法
一,为什么需要预加重操作语音信号低频段能量大,高频段信号能量明显小;而鉴频器输出噪声的功率谱密度随频率的平方而增加(低频噪声小,高频噪声大),造成信号的低频信噪比很大,而高频信噪比明显不足,从而导致高频传输衰弱,使高频传输困难,从而使得整个信息传输的信噪比得到改善。因此,在传输之前把信号的高频部分进行加重,然后接收端再去重,提高信号传输质量。预加重算法只要起到作用,并不是单一的某一算法,如一阶原创 2013-02-18 06:21:04 · 11173 阅读 · 0 评论 -
VAD实现 (二) --- 数据预处理
在用VAD算法确定静音和语音数据的开始和起止点之前,需要对语音数据进行处理,然后再计算语音数据的开始和起止点,这个过程称为数据的预处理,有些VAD算法是基于短时能量和过零率实现的,并不进行预处理操作,但实验表明,对数据进行预处理之后的效果要比不进行预处理的效果好。这里,对数据进行去除直流和加窗两个预处理。一,去除直流至少有这几个理由,要求我们去除直流。直流,是频域的慢变成分,一原创 2013-06-14 12:01:17 · 6049 阅读 · 1 评论 -
VAD实现 (一) --- 读取语音数据
一,什么是VADVAD,也就是语音端点检测技术,是Voice Activity Detection的缩写。这个技术的主要任务是从带有噪声的语音中准确的定位出语音的开始和结束点,因为语音中含有很长的静音,也就是把静音和实际语音分离开来,因为是语音数据的原始处理,所以VAD是语音信号处理过程的关键技术之一。它的好坏,直接影响成败,由于技术本身的特殊性,所以在涉及语音信号处理的领域,端点检测技术的应原创 2013-06-14 11:12:29 · 10240 阅读 · 3 评论 -
C++实现语音识别词典内存存储模型
对于给定的词典,如下一 ii i1一一 ii i1 ii i1一一一 ii i1 ii i1 ii i1一一一一 ii i4 ii i1 ii i4 ii i1一一一七 ii i1 ii i1 ii i1 q i1一一一三 ii i1 ii i1 ii i1 s an1一一一九 ii i1 ii i1 ii i1 j iu3一一一二 ii i1 ii i1 ii i1 ee原创 2013-02-26 16:05:44 · 1809 阅读 · 0 评论 -
N-Gram的数据结构
ARPA的n-gram语法如下:\data\ngram 1=64000ngram 2=522530ngram 3=173445\1-grams:-5.24036 'cause -0.2084827-4.675221 'em -0.221857-4.989297 'n -0.05809768-5.365303原创 2013-02-26 17:19:04 · 2465 阅读 · 0 评论 -
语音信号的加窗处理
平稳的随机过程是研究语音信号的主要手段,但是语音信号本身并不是平衡的。一,语音信号不平稳语音信号在产生过程中与环境和发声器官的联系很紧密,与各种运动都是相关的,信号本身是不平移的信号。主要是由于发声器官的运动不可预测带来的短时变。但发声器官的状态变化速度较声音振动的速度要缓慢的多,因此语音信号可以认为是短时平稳的。研究发现,在10~30ms的范围内,语音频谱特征和一些物理特征参数基本保原创 2013-02-18 15:18:34 · 24183 阅读 · 2 评论 -
安装Tracter
1,下载源码wget http://juicer.amiproject.org/tracter/sources/tracter-1.0.tar.gz解压 tar xvf tracter-1.0.tar.gz2,编译tracter进入build目录,如果没有,就新建一个目录,名为build。下面是编译过程中依赖的包2.1 安装 cmakeyum install cmake原创 2013-02-01 11:36:38 · 8966 阅读 · 1 评论 -
srilm安装及ngram-count简单使用
SRILM是一个统计和分析语言模型的工具,提供一些命令行工具,如ngram,ngram-count,可以很方便的统计NGRAM的语言模型。1,下载我开始在这个站上下载,感觉很慢。 http://www.speech.sri.com/projects/srilm/download.html。 然后直接换了个站下载,直接下载1.5版本的。wget ftp://ftp.speech.sri.原创 2013-02-05 18:15:21 · 15808 阅读 · 3 评论 -
语音识别概念的简单理解
1,语音识别单元识别单元的大小对语音训练数据量大小、语音识别率,以及灵活性有较大的影响,系统所需的训练数据大小与模型复杂度有关。其实就是语音识别的粒度,越小的时候,识别率越高,当然运算时间也越长。2,语言模型语言模型可以提供字或词之间的上下文信息和语义信息,通过语言模型可以提高声学模型的区分度,语言模型主要分为规则模型和统计模型两种,当前,统计语言模型在实际应用中处于主流地位。原创 2013-02-05 18:28:42 · 1824 阅读 · 0 评论 -
安装Torch3
Torch3的安装过程是比较容易的,但这个库比较重要,所以单独记录下来,为后文的编译Tracter和Juicer提供支持。1,下载源码下载地址: http://www.torch.ch/torch3/archives/Torch3src.tgz2,解压这里说安装,其实Torch3不提供安装的选项,在编译之后,会在目录内生成一个静态库文件。在以后需要用到这个库文件的地方,直接用这原创 2013-02-01 09:45:51 · 2179 阅读 · 0 评论 -
从WAVE头文件中获取压缩方式
在解析WAV文件时,会从头文件中读取TAG值,表示当前文件的压缩格式,如该值为1,表示没有压缩,其它表示不同的压缩方式。如其中为6时,表示压缩方式是alaw列表如下:TAG值音频描述00x0000Unknown10x0001Microsoft PCM2原创 2014-04-25 18:12:54 · 1926 阅读 · 3 评论