学生时期-语音识别
文章平均质量分 59
语音识别数据库、HMM、MFCC
Digital-Twin
数字孪生忠实信徒 万物皆可孪生
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
语音识别研究方向
远场语音识别 1)语音激活检测(VAD)```需求背景:在近场识别场景,比如使用语音输入法时,用户可以用手按着语音按键说话,结束之后松开,由于近场情况下信噪比(signal to noise ratio, SNR))比较高,信号清晰,简单算法也能做到有效可靠。但远场识别场景下,用户不能用手接触设备,这时噪声比较大,SNR下降剧烈,必须使用VAD了。``` 2)语音唤醒 (voice trigger,VT)```需求背景:在近场识别时,用户可以点击按钮后直接说话,但是远场识别时,需要...原创 2021-10-07 16:00:21 · 2257 阅读 · 0 评论 -
语音识别技术基础知识
语音识别技术让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。 语音识别本质上是一种模式识别的过程,未知语音的模式与已知语音的参考模式逐一进行比较,最佳匹配的参考模式被作为识别结果。 语音识别的目的就是让机器赋予人的听觉特性,听懂人说什么,并作出相应的动作。目前大多数语音识别技术是基于统计模式的,从语音产生机理来看,语音识别可以分为语音层和语言层两部分。 语音识别技术的主流算法,主要有基于动态时间规整(DTW)算法、基于非参数模型的矢量量化(VQ)方法、...原创 2021-10-07 15:59:40 · 6375 阅读 · 0 评论 -
SPHINX-孤立词语音识别
sphinx 语音识别系统Sphinx 是由美国卡内基梅隆大学开发的大词汇量、非特定人、连续英语语音识别系统。Sphinx的研究工作已经开展了30多年,从李开复等人开发的Sphinxl到现今已经发展到了Sphinx4。Sphinx系统的鲁棒性强、可扩充性很好,并且代码开源代码,使得世界各地语音研究工作者能够利用它进行语音识别的研究工作。本章主要对该系统的构成和理论基础做个详细介绍。Sphinx是开放源代码的语音识别软件包,它可以运行在多种平台上。其中被广泛使用的是Sphinx2,同时广泛应用于嵌原创 2021-10-07 15:58:02 · 797 阅读 · 0 评论 -
语音识别概括图
原创 2021-10-07 15:54:26 · 304 阅读 · 0 评论 -
马尔可夫模型概念
马尔科夫模型 背景知识 1随机过程 2 马尔可夫性质 3 马尔可夫链 4 模式的形成 隐马尔可夫模型 1马尔可夫过程的局限性 2 隐马尔可夫模型定义 forward算法 1 局部概率 2 计算t 1时刻的值 3 计算t 1时候的值 viterbi算法 1 局部概率与局部最优路径 2 计算t 1时刻的值原创 2021-10-07 15:53:01 · 13794 阅读 · 0 评论 -
常用语音数据库
大多数语音识别数据集是专有的,因为这些数据对于创建该数据集的公司来说具有很大价值。因此,这部分的可用公开数据集多数比较陈旧。【学术、陈旧】2000 HUB5 English:仅包含英语的语音数据集,百度最近的论文《深度语音:扩展端对端语音识别》使用的是这个数据集。 地址:https://catalog.ldc.upenn.edu/LDC2002T43 【学术】LibriSpeech...原创 2018-07-25 11:42:02 · 10376 阅读 · 2 评论 -
kaldi-yesno例子
"yesno"语料库是一个非常小打一个人的录音数据集,测试集在单声道阶段完全被识别WER(WordError Rate)是字错误率,是一个衡量语音识别系统的准确程度的度量。其计算公式是WER=(I+D+S)/N,I代表被插入的单词个数D代表被删除的单词个数S代表被替换的单词个数通俗来讲是把识别出来的结果中,多认的,少认的,认错的全都加起来,除以总单词数。这个数字当然是越低越...原创 2018-07-25 15:47:50 · 1880 阅读 · 1 评论
分享