循环神经网络之LSTM、GRU

循环神经网络之LSTM、GRU

1. 什么是 LSTM?

LSTM(Long short-term memory,长短期记忆)是一种特殊的RNN,主要是为了解决长序列训练过程中的梯度消失梯度爆炸问题。简单而言,LSTM是相比与普通RNN在更长序列数据中表现更好的一类循环神经网络。

在这里插入图片描述

2. 深入理解 LSTM 结构

首先使用 LSTM 的当前输入状态 x t x_t xt 和上一个传递下来的状态 h t − 1 h_{t-1} ht1 拼接得到 4 个门控状态
z f = σ ( W f ⋅ [ h t − 1 , x ] + b f ) = σ ( W f ⋅ h t − 1 + W f ⋅ x + b f ) z_f=\sigma(W_f \cdot[h_{t-1},x]+b_f)=\sigma(W_f \cdot h_{t-1} + W_f \cdot x+b_f) zf=σ(Wf[ht1,x]+bf)=σ(Wfht1+Wfx+bf)

z i = σ ( W i ⋅ [ h t − 1 , x ] ) + b i ) = σ ( W i ⋅ h t − 1 + W i ⋅ x + b i ) z_i=\sigma(W_i \cdot [h_{t-1},x]) + b_i)=\sigma(W_i \cdot h_{t-1}+W_i \cdot x + b_i) zi=σ(Wi[ht1,x])+bi)=σ(Wiht1+Wix+bi)

z = t a n h ( W ⋅ [ h t − 1 , x t ] + b ) = t a n h ( W ⋅ h t − 1 + W ⋅ x t + b ) z=tanh(W \cdot [h_{t-1},x_t]+b)=tanh(W \cdot h_{t-1}+W \cdot x_t + b) z=tanh(W[ht1,xt]+b)=tanh(Wht1+Wx

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值