LSTM学习总结

博客主要介绍了LSTM的相关内容,包括其一般结构,如遗忘门层、输入门层和输出门层的具体公式及作用,还提及了LSTM的一些变形,如将Ct−1考虑进来和默认it=1−ft的情况。此外,还介绍了门控循环单元(GRU)的特点和细节。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

LSTM

一般结构

LSTM

Forget Gate Layer
Detail

f t = σ ( W f ∗ [ h t − 1 , x t ] + b f ) f_{t}=\sigma (W_{f}*[h_{t-1},x_{t}]+b_f) ft=σ(Wf[ht1,xt]+bf)
决定信息保留程度,“1”代表完全保留,“0”代表完全舍弃

Input Gate Layer
Detail

i t = σ ( W i ∗ [ h t − 1 , x t ] + b i ) i_t=\sigma (W_i*[h_{t-1},x_t]+b_i) it=σ(Wi[ht1,xt]+bi)
C t ′ = t a n h ( W i ∗ [ h t − 1 , x t ] + b i ) C_t^{'}=tanh (W_i*[h_{t-1},x_t]+b_i) Ct=tanh(Wi[ht1,xt]+bi)

Next

C t = f t ∗ C t − 1 + i t ∗ C t ′ C_t=f_t*C_{t-1}+i_t*C_t{'} Ct=ftCt1+itCt

Output Gate Layer
Detail

o t = σ ( W o ∗ [ h t − 1 , x t ] + b o ) o_t=\sigma (W_o*[h_{t-1},x_t]+b_o) ot=σ(Wo[ht1,xt]+bo)
h t = o t ∗ t a n h ( C t ) h_t=o_t*tanh (C_t) ht=ottanh(Ct)

一些变形

C t − 1 C_{t-1} Ct1考虑进来

f t = σ ( W f ∗ [ h t − 1 , x t , C t − 1 ] + b f ) f_{t}=\sigma (W_{f}*[h_{t-1},x_{t},C_{t-1}]+b_f) ft=σ(Wf[ht1,xt,Ct1]+bf)
i t = σ ( W i ∗ [ h t − 1 , x t , C t − 1 ] + b i ) i_t=\sigma (W_i*[h_{t-1},x_t,C_{t-1}]+b_i) it=σ(Wi[ht1,xt,Ct1]+bi)
o t = σ ( W o ∗ [ h t − 1 , x t , C t − 1 ] + b o ) o_t=\sigma (W_o*[h_{t-1},x_t,C_{t-1}]+b_o) ot=σ(Wo[ht1,xt,Ct1]+bo)

默认 i t = 1 − f t i_t=1-f_t it=1ft

C t = f t ∗ C t − 1 + ( 1 − f t ) ∗ C t ′ C_t=f_t*C_{t-1}+(1-f_t)*C_t{'} Ct=ftCt1+(1ft)Ct
Ha

Gated Recurrent Unit(GRU)

特点
  1. 使用update gate代替forget & input gate
  2. 合并cell state 和 hidden state
Details

GRU

From

http://colah.github.io/posts/2015-08-Understanding-LSTMs/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值