语音学习Task6-语音识别基础拓展

本文深入探讨了语音识别的主要任务,包括如何将语音序列转化为文本序列。重点介绍了声学模型如HMM和GMM,以及语言模型如n-gram和RNN在语音识别中的应用。同时,概述了语音识别的开发工具,并提到了基于端到端学习的新兴方法在该领域的进展。

一、语音识别主要任务

语音识别全称为“自动语音识别”,Automatic Speech Recognition (ASR), 一般是指将语音序列转换成文本序列。语音识别最终是统计优化问题,给定输入序列O={O1,…,On},寻找最可能的词序列W={W1,…,Wm},即寻找使得概率P(W|O)最大的词序列。用贝叶斯公式表示为:

在这里插入图片描述

其中P(O|W) 叫做声学模型,描述的是给定词W时声学观察为O的概率;P(W)叫做语言模型,负责计算某个词序列的概率;P(O)是观察序列的概率,是固定的,是固定的,所以只看分母部分即可。

二、语音识别方法介绍

1.声学模型

  • HMM:隐马尔可夫模型(Hidden Markov Model,HMM)是用于建模离散时间序列的常见模型.HMM 涉及的主要内容有,两组序列(隐含状态和观测值),三种概率(初始状态概率,状态转移概率,发射概率),和三个基本问题(产生观测序列的概率计算,最佳隐含状态序列的解码,模型本身的训练),以及这三个问题的常用算法(前向或后向算法,Viterbi 算法,EM 算法)。语音识别的最终应用对应的是解码问题,而对语音识别系统的评估、使用也叫做解码(Decoding)。
  • GMM:GMM(高斯混合模型,Gaussian Mixed Model),主要就是通过GMM来求得某一音素(phoneme)的概率。

3.语言模型

  • n-gram:语言模型是典型的的自回归模型(Autoregressive Model)
  • RNN语言模型
  • 基于端到端学习的方法

语音识别开发工具介绍

在这里插入图片描述

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值