
htk
xmdxcsj
毕业于中科院声学所,在BAT从事语音技术研究多年。微信公众号:谈谈语音技术,关注后跟踪最新博文。
展开
-
htk网络和解码源码(三、语言模型)
(一) FSLM1. 结构体l 对于所有的1gramArpa文件中的每一行的每一个单词依次编号,lablist[lmId]和wordlist[lmId]存放标号lmId对应的labId和word。unigrams 存放一个单词(LMId)对应的所有的发音(PronID多个)的一元概率。l 对于高阶gramword存放所有的word(比如原创 2015-05-24 17:09:53 · 1946 阅读 · 0 评论 -
htk网络和解码源码(五、htk解码)
htk解码使用工具:HRec:解码HVite:forcedalignments,lattice rescoring and recognise direct audio input. 一、解码操作用于解码的网络可以分为三个层面:word、model(三音素)和state。首先根据word网络和字典,生成三音素model级别的网络,然后根据HMM的状态集生成HMM级别原创 2015-05-24 17:22:30 · 2685 阅读 · 0 评论 -
htk网络和解码源码(五、htk解码代码)
(一) 整体流程对于每一帧数据,遍历所有层的链表instsLayer[l],其中l是指层数;遍历一个链表中的所有node:如果node类型为LN_MODEL,执行PropagateInternal(每个node含有多个tokenset,每一个tokenset对应于一个state);如果node类型为LN_WORDEND或LN_CON,清空node的tokenset,执行ex原创 2015-05-25 20:03:39 · 2676 阅读 · 0 评论 -
htk解码器网络
Htk解码器网络之前看过一部分wfst解码器的代码,跟pocketsphinx的解码器部分结构上面不太一样,所以阅读了一下htk的解码器部分的说明,以期望对pocketsphinx的代码阅读有帮助。参考资料:HTK book http://htk.eng.cam.ac.uk/download.shtml 解码器网络一、 解码器网络的概况网络分为两种:word网络翻译 2015-01-25 18:52:03 · 5631 阅读 · 1 评论 -
htk网络和解码源码(二、声学模型)
(一) 定义1. HMM参数转移概率:5*5矩阵,每行的和为1,最后一行的所有转移概率为0生成概率:分为两类,一类是continuous density models,使用混合高斯模型表示另一类是discrete probability distributions,2. HMM宏定义Hmm在加载完一个hmm以后,会进行相关chec原创 2015-05-24 17:06:58 · 2469 阅读 · 0 评论 -
htk网络和解码源码(一、词典)
以空格隔开的单词和发音全部放入到hashtab中,hash表存放的元素是NameCell。Vocab中的wtab存放单词word的hash表,其中每一个hash值对应的都是一个链表。Pron表示一条发音Word表示一个单词,可能包含多个发音LabId存放发音或者单词的字符串原创 2015-05-24 16:58:57 · 1611 阅读 · 0 评论 -
htk网络和解码源码(四、网络)
(一) 例子 sil sil 北京 b eh_l i_l ji i_h ng_h 北方 b eh_l i_l f a_h ng_h 天气 ti aa_h nn_h qi i_h i_l 注:调用WriteTLex (tnet, "lex.dot")函数,可以生成相应的网络结构图。(二) 主要结构原创 2015-05-24 17:14:52 · 2033 阅读 · 0 评论 -
基于GRAMMAR的HDecode解码
一、应用场景离线解码器支持命令式的语音输入二、原理Htk解码有两种网络:1. Task grammer 语法规则2. Word loop 语言模型网络的描述形式是SLF,通过HParse和HBuild两个工具构建。SLF文件的用途有两种:1. 用作网络的输入:用于构建解码网络2. 用作识别结果的输出:输出lattice用于re原创 2015-07-30 09:07:48 · 2162 阅读 · 0 评论