语音学习Task6-语音识别基础拓展

最新推荐文章于 2024-08-28 19:46:04 发布

原创最新推荐文章于 2024-08-28 19:46:04 发布 · 493 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#机器学习 #人工智能

本文深入探讨了语音识别的主要任务，包括如何将语音序列转化为文本序列。重点介绍了声学模型如HMM和GMM，以及语言模型如n-gram和RNN在语音识别中的应用。同时，概述了语音识别的开发工具，并提到了基于端到端学习的新兴方法在该领域的进展。

一、语音识别主要任务

语音识别全称为“自动语音识别”，Automatic Speech Recognition (ASR), 一般是指将语音序列转换成文本序列。语音识别最终是统计优化问题，给定输入序列O={O1,…,On}，寻找最可能的词序列W={W1,…,Wm}，即寻找使得概率P(W|O)最大的词序列。用贝叶斯公式表示为：

在这里插入图片描述

其中P(O|W) 叫做声学模型，描述的是给定词W时声学观察为O的概率；P(W)叫做语言模型，负责计算某个词序列的概率；P(O)是观察序列的概率，是固定的，是固定的，所以只看分母部分即可。

二、语音识别方法介绍

1.声学模型

HMM:隐马尔可夫模型（Hidden Markov Model，HMM）是用于建模离散时间序列的常见模型.HMM 涉及的主要内容有，两组序列（隐含状态和观测值），三种概率（初始状态概率，状态转移概率，发射概率），和三个基本问题（产生观测序列的概率计算，最佳隐含状态序列的解码，模型本身的训练），以及这三个问题的常用算法（前向或后向算法，Viterbi 算法，EM 算法）。语音识别的最终应用对应的是解码问题，而对语音识别系统的评估、使用也叫做解码（Decoding）。
GMM:GMM（高斯混合模型，Gaussian Mixed Model）,主要就是通过GMM来求得某一音素（phoneme）的概率。

3.语言模型

n-gram：语言模型是典型的的自回归模型（Autoregressive Model）
RNN语言模型
基于端到端学习的方法

语音识别开发工具介绍

在这里插入图片描述

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。