语音识别的基本概念

本文介绍了语音识别的基本概念,包括语音的连续性和音素的上下文影响。重点讲述了识别过程,涉及预处理、特征提取(MFCC)、声学模型(HMM)和语言模型(N-Gram)的使用。声学模型通过HMM对音素进行建模,语言模型用于约束单词搜索,提高识别准确性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

摘录自 http://blog.youkuaiyun.com/zouxy09/article/details/7941055
这里记载的主要是以前的传统方法,并不太涉及深度学习。

语音是一个连续的音频流,它是由大部分的稳定态和部分动态改变的状态混合而成。
一个单词的发声(波形)实际上取决于很多因素,而不仅仅是音素,例如音素上下文、说话者、语音风格等。
协同发音(指的是一个音受前后相邻音的影响而发生变化,从发生机理上看就是人的发生器官在一个音转向另一个音时其特性只能渐变,从而使得后一个音的频谱与其他条件下的频谱产生差异。)的存在使得音素的感知与标准不一样,所以我们需要根据上下文来辨别音素。将一个音素划分为几个亚音素单元。如:数字“three”,音素的第一部分与在它之前的音素存在关联,中间部分是稳定的部分,而最后一部分则与下一个音素存在关联,这就是为什么在用HMM模型做语音识别时,选择音素的三状态HMM模型。(上下文相关建模方法在建模时考虑了这一影响,从而使模型能更准确地描述语音只考虑前一音得到影响称为Bi-Phone,考虑前一音和后一音的影响称为Tri-Phoe)
音素phones构成亚单词单元,也就是音节syllables。音节是一个比较稳定的实体,因为当语音变得比较快的时候,音素往往发生改变,但是音节不变。音节与节奏语调的轮廓有关。音节经常在词汇语音识别中使用。
亚单词单元(音节)构成单词。单词在语音识别中很重要,因为单词约束了音素的组合。假如共有40个音素,然后每个单词平均有7个音素,那么就会存在40^7个单词,但幸运的是就算一个受过优等教育的人也很少使用过20K个单词,这就使识别变得可行。
单词和一些非语言学声音构成了话语utterances,我们把非语言学声音称为fillers填充物,例如呼吸,um,uh,咳嗽等,它们在音频中是以停顿做分离的。所以它们更多只是语义上面的概念,不算是一个句子。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值