【AI语音基础】ASR基本知识

原创

已于 2024-05-15 10:36:15 修改 · 1w 阅读

·

40

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

于 2024-04-28 19:30:27 首次发布

本文详细介绍了语音识别技术，包括基础概念、HMM隐马尔可夫链在声学模型中的应用、端到端方法如深度学习中的CTC和注意力机制，以及识别率和错误率的衡量标准，如字错率（WER）、句错率（SER）。

目录

语音识别ASR原理

HMM隐马尔可夫链语音识别

端到端语音识别

识别衡量标准

背景

语音识别（Speech Recognition）也被称为自动语音识别（英语：Automatic Speech Recognition, ASR），将语音音频转换为文字的技术。

简单点说：把语音音频转化为文字。

语音识别ASR原理

新手语音入门（三）：语音识别ASR算法初探 | 编码与解码 | 声学模型与语音模型 | 贝叶斯公式 | 音素-云社区-华为云 (huaweicloud.com)

编码过程：语音识别的输入是声音，计算机无法直接处理，

需要编码过程将其转变为数字信息，并提取其中的特征进行处理。

编码时一般会将声音信号按照很短的时间间隔，切成小段，成为帧。

对于每一帧，可以通过某种规则（例如MFCC特征）提取信号中的特征，将其变成一个多维向量。向量中的每个维度都是这帧信号的一个特征。

解码过程：解码过程则是将编码得到的向量变成文字的过程，需要经过两个模型的处理，一个模型是声学模型，一个模型是语言模型。

声学模型通过处理编码得到的向量，将相邻的帧组合起来变成音素，如中文拼音中的声母和韵母，再组合起来变成单个单词或汉字。
语言模型用来调整声学模型所得到的符合逻辑的字词，使识别结果变得通顺。

已知一段音频信号，处理成声学特征向量Acoustic Feature Vector后表示为，X=[x1,x2,x3,…]X=[x1,x2,x3,…],其中xixi表示一帧特征向量；可能的文本序列表示为W=[w1,w2,w3,…]W=[w1,w2,w3,…],其中wiwi表示一个词，求W∗=argmaxwP(W∣X)W∗=argmaxwP(W∣X)，这便是语音识别的基本出发点。并且由贝叶斯公式可知：

其中，P(X∣W)P(X∣W)称之为声学模型（Acoustic Model, AM）, P（W）P（W）称之为语言模型（Language Model, LM），由于P(W)P(W)一般是一个不变量，可以省去不算。

许多研究将语音识别问题看做声学模型与语音模型两部分，分别求取P(X∣W)P(X∣W)和P(W)P(W)。

后来，基于深度学习和大数据的端对端（End-to-End）方法发展起来，直接计算P(W∣X)P(W∣X)，把声学模型和语言模型融为了一体。

语音识别的问题可以看做是语音到文本的对应关系，语音识别问题大体可以归结为文本基本组成单位的选择上。单位不同，则建模力度也随之改变。

图中文本基本组成单位从大到小分别是：

整句文本，如“Hello
World”,

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。