【机器学习】高级语音模型

本文深入解析了循环神经网络(RNN)的基本结构、BPTT训练方法,以及长短期记忆网络(LSTM)的独特设计,包括初始状态、遗忘门、输入门和更新机制,特别关注它们在语音识别中的应用,以及如何解决梯度消失问题。

参考

华为云学院

RNN

循环神经网络(Recurrent Neural Networks,RNN)是一种通过隐藏层节点周期性的连接,来捕捉序列化数据中动态信息的神经网络,可以对序列化的数据进行分类。
与其他网络不通,RNN可以保存一种上下文的状态,能够在任意长的上下文窗口中存储、学习、表达相关信息。而且不再局限于传统神经网络在空间上的边界,可以在时间序列上有延拓。
RNN广泛应用在和序列有关的场景,如一帧帧图像组成的视频,一个个片段组成的音频,和一个个词汇组成的句子。

RNN网络结构

在这里插入图片描述

RNN结构展开

在这里插入图片描述
x是当前时刻正在读取的某个输入,并输出一个值h;s是其中一个序列的状态,其中经过了相应激活函数的处理。

标准RNN

在这里插入图片描述

BPTT

RNN的前向传播是:依次按照时间的顺序计算一次,BPTT就是从最后一个将积累的残差传递回来,这与普通的神经网络训练相似,不一样的事是我们将每个时刻的梯度相加。
在这里插入图片描述

LSTM

长短期记忆网络(Long Short-Term Memmory,LSTM),是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟较长的事件。
LSTM与RNN不同的地方在于,它在算法中加入了一个判断信息有用与否的“处理器”,这个处理器作用的结构成为cell。cell中放置了三扇门,分别叫输入门,遗忘门和输出门。一个信息进入到网络中,可以根据规则判断它是否有用。符合算法认证的信息才会留下。

LSTM与语音识别

DNN将每一帧语音及其前后的几帧语音拼接在一起作为网络的输入,从而利用语音序列中上下文的信息。DNN中每次输入的帧数是固定的,不同的窗长对结果会有影响。
RNN在一定程度上客服了DNN的缺点,但是RNN容易出现梯度消失的问题,无法记忆长时信息。
LSTM通过特定的门控单元使得当前时刻的误差能够保存下来并选择性传给特定的单元,从而避免梯度消失的问题。适用相当长的相关信息和位置间隔。适用于需要连接前面长期内的信息到当前的任务上
在这里插入图片描述
在这里插入图片描述

LSTM:初始状态

在这里插入图片描述

LSTM:遗忘门

在这里插入图片描述

LSTM:输入门

在这里插入图片描述

LSTM:更新

在这里插入图片描述
在这里插入图片描述

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值