【AI语音基础】ASR基本知识

本文详细介绍了语音识别技术,包括基础概念、HMM隐马尔可夫链在声学模型中的应用、端到端方法如深度学习中的CTC和注意力机制,以及识别率和错误率的衡量标准,如字错率(WER)、句错率(SER)。

目录

背景

语音识别ASR原理

HMM隐马尔可夫链语音识别

端到端语音识别

识别衡量标准

参考1

参考2

参考3

参考4


背景

语音识别(Speech Recognition)也被称为自动语音识别(英语:Automatic Speech Recognition, ASR),将语音音频转换为文字的技术。

简单点说:把语音音频转化为文字。

语音识别ASR原理

新手语音入门(三): 语音识别ASR算法初探 | 编码与解码 | 声学模型与语音模型 | 贝叶斯公式 | 音素-云社区-华为云 (huaweicloud.com)

编码过程:语音识别的输入是声音,计算机无法直接处理,

        需要编码过程将其转变为数字信息,并提取其中的特征进行处理。

        编码时一般会将声音信号按照很短的时间间隔,切成小段,成为帧。

        对于每一帧,可以通过某种规则(例如MFCC特征)提取信号中的特征,将其变成一个多维向量。向量中的每个维度都是这帧信号的一个特征。

解码过程:解码过程则是将编码得到的向量变成文字的过程,需要经过两个模型的处理,一个模型是声学模型,一个模型是语言模型。

  • 声学模型通过处理编码得到的向量,将相邻的帧组合起来变成音素,如中文拼音中的声母和韵母,再组合起来变成单个单词或汉字。
  • 语言模型用来调整声学模型所得到的符合逻辑的字词,使识别结果变得通顺

已知一段音频信号,处理成声学特征向量Acoustic Feature Vector后表示为,X=[x1,x2,x3,…]X=[x1​,x2​,x3​,…],其中xixi​表示一帧特征向量;可能的文本序列表示为W=[w1,w2,w3,…]W=[w1​,w2​,w3​,…],其中wiwi​表示一个词,求W∗=argmaxwP(W∣X)W∗=argmaxw​P(W∣X),这便是语音识别的基本出发点。并且由贝叶斯公式可知:

其中,P(X∣W)P(X∣W)称之为声学模型(Acoustic Model, AM), P(W)P(W)称之为语言模型(Language Model, LM),由于P(W)P(W)一般是一个不变量,可以省去不算。

许多研究将语音识别问题看做声学模型与语音模型两部分,分别求取P(X∣W)P(X∣W)和P(W)P(W)。

后来,基于深度学习和大数据的端对端(End-to-End)方法发展起来,直接计算P(W∣X)P(W∣X),把声学模型和语言模型融为了一体。

        语音识别的问题可以看做是语音到文本的对应关系,语音识别问题大体可以归结为文本基本组成单位的选择上。单位不同,则建模力度也随之改变。

图中文本基本组成单位从大到小分别是:

  • 整句文本,如“Hello
    World”,

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值