
语音识别基本法
文章平均质量分 93
Python-AI Xenon
本科智能科学与技术之学子,酷嗜人工智能之奥域。Python乃吾所好之编程之术,助余遨游于智慧之海。余笃志于模式识别、深度学习、计算机视觉、自然语言处理之探究,常掘AI之潜藏价值。深信通过不懈努力与持续研习,余必能掌握更多人工智能之技,以发掘其无穷之潜能。未来之路,余将秉持对人工智能之热爱与追求,不懈前行,探索未知之域。
展开
-
Kaldi语音识别技术(八) ----- 整合HCLG
WFST的融合一般是从大到小,即先将G与L进行融合,再一次融合C、H,每次融合都要进行确定化(determinisation)和最小化(minimisation),最小化是指将WFST转换为一个状态节点和边更少的等价WFST,提高搜索的效率。至此,HCLG.fst已经生成,整个kaldi语音识别系统的核心内容已经构建完成!原创 2023-02-21 22:11:47 · 4712 阅读 · 0 评论 -
Kaldi语音识别技术(七) ----- 训练GMM
整个过程分为10个环节,其中有5个是与对齐相关的,为了方便理解,这10个环节,只讲其中的2个(**train_mono 单因素训练模型和align_si对齐**),其他的基本都是进行优化。整个GMM训练模型的过程就是这样。总的来说,模型训练得越好,对齐就对得越准,就越可以提高语音识别的准确度原创 2023-02-21 17:52:57 · 4777 阅读 · 0 评论 -
Kaldi语音识别技术(六) ----- DTW和HMM-GMM
前面的内容中我们完成了特征的提取,那么本章节我们主要进行理论部分的笔记。知道自己在干嘛才能更好效率的学习,简单对语音识别进行一个回顾,然后介绍一下语音识别常用的也是最简单的 DTW(动态时间弯折)算法。原创 2023-02-19 23:58:47 · 2211 阅读 · 0 评论 -
Kaldi语音识别技术(五) ----- 特征提取
人通过声道产生声音,声道的shape决定了发出怎样的声音。声道的shape包括舌头,牙齿等。如果我们可以准确的知道这个形状,那么我们就可以对产生的音素(phoneme)进行准确的描述。声道的形状在语音短时功率谱的包络中显示出来。而MFCC就是一种准确描述这个包络的一种特征。所谓特征提取,也就是提取语音信号中有助于理解语言内容的部分而丢弃掉其它的东西(比如背景噪音和情绪等等)。MFCC。原创 2023-02-14 22:18:11 · 3638 阅读 · 3 评论 -
Kaldi语音识别技术(四) ----- 完成G.fst的生成
N-Gram是大词汇连续语音识别中常用的一种语言模型,对中文而言,我们称之为汉语语言模型(CLM, Chinese Language Model)。汉语语言模型利用上下文中相邻词间的搭配信息,可以实现到汉字的自动转换,汉语语言模型利用上下文中相邻词间的搭配信息,在需要把连续无空格的拼音、笔划,或代表字母或笔划的数字,转换成汉字串(即句子)时,可以计算出具有最大概率的句子,从而实现到汉字的自动转换,无需用户手动选择,避开了许多汉字对应一个相同的拼音(或笔划串,或数字串)的重码问题。该模型基于这样一种假设,原创 2022-11-17 00:04:50 · 1806 阅读 · 1 评论 -
Kaldi语音识别技术(三) ----- 完成L.fst的生成
一个完整的Kaldi需要得到下面四个FST识别流程如下:本章节完成以下内容:L.fst的生成原创 2022-11-13 21:18:41 · 2160 阅读 · 0 评论 -
Kaldi语音识别技术(一) ----- 搭建Kaldi环境
入门语音识别相关的领域,用的kaldi,结果make的时候是各种报错!我用的操作环境是Vmware16.2 + CentOS7.9 + Xshell7。本文主要记录了我的各种报错之后研究实践的解决各种报错问题终极版,尤其是make 编译 tools报错!...原创 2022-08-31 23:16:03 · 2963 阅读 · 1 评论 -
解决【kaldi】生成L.fst时 报错:libfst.so.16: cannot open shared object file 及类似问题
报错信息:fstcompile: error while loading shared libraries: libfst.so.16: cannot open shared object file: No such file or directory 报错信息:fstarcsort: error while loading shared libraries: libfst.so.16: cannot open shared object file: No such file or direc原创 2022-11-07 00:18:18 · 1624 阅读 · 0 评论 -
Kaldi语音识别技术(二) ----- 完成数据的准备
实践主要基于 kaldi里面的 aishell1 示例,所以需要准备以下数据,生成准备四个文件原创 2022-10-30 21:03:59 · 3123 阅读 · 4 评论