长短期记忆网络(long short-term memory, LSTM)
上期总结了基础RNN的相关内容,LSTM作为基于RNN的
1 . LSTM 的宏观认识
LSTM作为RNN的变种,主要在于单元内部结构添加了门的概念()有其自身的优势和不足:
优点:
- 能够捕捉列中更深层次的联系,如下方两句话,唯一的差别只是cat的单复数问题。在传统的rnn模型中,无法在如此长的间隔中捕捉cat/cats和was/were的关系,而LSTM有可能做到。
- 能够解决梯度消失(vanishing gradient)的问题。
缺点:
- 计算复杂,训练时间长。
The cat ,which already ate … was full.
The cats,which already ate … were full.
2.LSTM的内部结构
LSTM引入了几种新的元素:细胞状态 C<t> C < t > ,更新门 Γu Γ u ,遗忘门 Γf Γ f ,和输出门 Γo Γ o 。三种门作用大致如下:
- 更新门:作用于细胞状态,决定更新什么信息。如“The cat ,which already ate … was full.”当输入”cat”时,会更新细胞状态,记住cat是单数。
- 遗忘门:作用于细胞状态,决定遗忘什么信息。如“The cat ,which already ate … was full.”当输入“was”时,因为“was”是由“cat”决定的,所以会遗忘关于cat的信息。
输出门:确定输出。
另外,在实际使用时,几个门值不仅仅取决于 a<t−1> a < t − 1 > 和 x<t> x < t > ,还可能会取决于上一个记忆细胞的值 c<t−1> c < t − 1 > ,这也叫做偷窥孔连接。
3.LSTM的前向传播
下图较为清晰的展现了LSTM的前项传播过程,
4.LSTM的反向传播过程
在使用深度学习框架时,框架会为自动的为我们计算反向传播,不过了解一下LSTM的反向传播过程和公式也挺有好处。就是真的多啊这公式!嗨呀。
交叉熵详解:https://blog.youkuaiyun.com/tsyccnh/article/details/79163834
参考:https://blog.youkuaiyun.com/wjc1182511338/article/details/79285503