目录
背景
语音识别(Speech Recognition)也被称为自动语音识别(英语:Automatic Speech Recognition, ASR),将语音音频转换为文字的技术。
简单点说:把语音音频转化为文字。
语音识别ASR原理
新手语音入门(三): 语音识别ASR算法初探 | 编码与解码 | 声学模型与语音模型 | 贝叶斯公式 | 音素-云社区-华为云 (huaweicloud.com)

编码过程:语音识别的输入是声音,计算机无法直接处理,
需要编码过程将其转变为数字信息,并提取其中的特征进行处理。
编码时一般会将声音信号按照很短的时间间隔,切成小段,成为帧。
对于每一帧,可以通过某种规则(例如MFCC特征)提取信号中的特征,将其变成一个多维向量。向量中的每个维度都是这帧信号的一个特征。

解码过程:解码过程则是将编码得到的向量变成文字的过程,需要经过两个模型的处理,一个模型是声学模型,一个模型是语言模型。
- 声学模型通过处理编码得到的向量,将相邻的帧组合起来变成音素,如中文拼音中的声母和韵母,再组合起来变成单个单词或汉字。
- 语言模型用来调整声学模型所得到的符合逻辑的字词,使识别结果变得通顺。

已知一段音频信号,处理成声学特征向量Acoustic Feature Vector后表示为,X=[x1,x2,x3,…]X=[x1,x2,x3,…],其中xixi表示一帧特征向量;可能的文本序列表示为W=[w1,w2,w3,…]W=[w1,w2,w3,…],其中wiwi表示一个词,求W∗=argmaxwP(W∣X)W∗=argmaxwP(W∣X),这便是语音识别的基本出发点。并且由贝叶斯公式可知:

其中,P(X∣W)P(X∣W)称之为声学模型(Acoustic Model, AM), P(W)P(W)称之为语言模型(Language Model, LM),由于P(W)P(W)一般是一个不变量,可以省去不算。
许多研究将语音识别问题看做声学模型与语音模型两部分,分别求取P(X∣W)P(X∣W)和P(W)P(W)。
后来,基于深度学习和大数据的端对端(End-to-End)方法发展起来,直接计算P(W∣X)P(W∣X),把声学模型和语言模型融为了一体。
语音识别的问题可以看做是语音到文本的对应关系,语音识别问题大体可以归结为文本基本组成单位的选择上。单位不同,则建模力度也随之改变。

图中文本基本组成单位从大到小分别是:
-
整句文本,如“Hello
World”,

本文详细介绍了语音识别技术,包括基础概念、HMM隐马尔可夫链在声学模型中的应用、端到端方法如深度学习中的CTC和注意力机制,以及识别率和错误率的衡量标准,如字错率(WER)、句错率(SER)。
最低0.47元/天 解锁文章
7730






