【class18】人工智能初步----语音识别（4）

最新推荐文章于 2025-03-02 11:36:37 发布

fmc121104

最新推荐文章于 2025-03-02 11:36:37 发布

阅读量2.2k

点赞数 44

文章标签：人工智能语音识别 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/fmc121104/article/details/139275000

版权

【class17】

上节课，我们学习了: 语音端点检测的相关概念，并通过代码切分和保存了音频。

本节课，我们将学习这些知识点：
1. 序列到序列模型
2. 循环神经网络
3. 调用短语音识别接口

知其然，知其所以然

在调用语音识别接口前，我们先来学习语音识别系统最核心的部分：强大的黑盒子——语音识别模型。
通过学习黑盒子的内部，帮助我们进一步了解语音识别的前因后果。

强大的黑盒子

在一个典型的深度学习语音识别系统中，其模型由两部分组成：
1.编码器 2.解码器

编码和译码的目的

1.为了对输入数据进行分析并编写成机器能够处理的信息，就需要编码。
2.为了将编码器编写的信息翻译成人类理解的信息，就需要译码。
通俗的说，编码器就是让机器读得懂，解码器就是让人读的懂。

编码器解码器模型又叫做seq2seq模型——序列到序列模型。序列到序列也就是说，输入和输出都是序列。

序列到序列模型

定义

序列到序列模型（seq2seq ）包括编码器 (Encoder) 和解码器 (Decoder) 两部分。
seq2seq 是自然语言处理中的一种重要模型，可以用于语音识别、机器翻译、对话系统以及自动文摘等。

隐喻

把这个过程想象成谍战片里的情报截获和翻译，编码器为敌方，解码器为我方。我方情报员截获了敌方编码好的情报，为了读懂情报，就需要进行解码。

语音识别的输入和输出都是不定长序列，换句话说，就是每次输入的语音和输出的文字长度不定。比如，时长不一样的语音，采样后所得的数字序列是不一样长的。
像语音识别这种输入输出都是不定长序列时，我们就使用seq2seq模型。

seq2seq模型由编码器和解码器组成，而编码器和解码器都是利用了循环神经网络 — RNN来实现的。基本思想就是利用两个RNN，一个RNN作为编码器，另一个RNN作为解码器。

循环神经网络

定义

循环神经网络 (Recurrent Neural Network，RNN) 是一类用于处理序列数据的神经网络。在近些年，人们利用RNN解决了各种各样的问题：语音识别、语言模型、机器翻译和图像描述等。

对于序列数据来说，顺序排列非常重要！比如，这样一句话「我要给手（）充电」。我们就可以根据前后文字猜测，（）可能是机、表等单字。

当话变成「电充（）手要我」时，（）里该填什么？是不是满脸问号？？？显然，针对有关于序列的问题，我们需要一个神经网络来进行专门的处理。于是RNN出来了。

在学习RNN结构之前，我们看其他网络（如CNN）是如何处理数据的：每个网络处理数据是单独进行的。
每个数据通过隐含层（A）处理，都会得到一个对应的结果。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。