LSTM
通过引入遗忘门,输入门,输出门,缓解了RNN的梯度消失现象
三个门控制对前一段信息(主线遗忘)、输入信息(主线补给)以及输出信息的记忆状态,进而保证网络可以更好地学习到长距离依赖关系。
遗忘门:通过判断当前输入的重要程度来决定对之前信息cell的保留度,遗忘多少历史信息
F t = s i g m o i d ( W x f X + W h f H t − 1 ) F_t=sigmoid(W_{xf}X+W_{hf}H_{t-1}) Ft=sigmoid(WxfX+WhfHt−1)
输入门:通过判断当前输入的重要程度来决定对输入信息的保留度,补给多少当前信息
I t = s i g m o i d ( W x i X + W h i H t − 1 ) I_t=sigmoid(W_{xi}X+W_{hi}H_{t-1}) It=sigmoid(WxiX+