循环序列模型总结之LSTM

长短期记忆网络(long short-term memory, LSTM)

上期总结了基础RNN的相关内容,LSTM作为基于RNN的

1 . LSTM 的宏观认识

LSTM作为RNN的变种,主要在于单元内部结构添加了门的概念()有其自身的优势和不足:
优点:

  • 能够捕捉列中更深层次的联系,如下方两句话,唯一的差别只是cat的单复数问题。在传统的rnn模型中,无法在如此长的间隔中捕捉cat/cats和was/were的关系,而LSTM有可能做到。
  • 能够解决梯度消失(vanishing gradient)的问题。

缺点:

  • 计算复杂,训练时间长。

The cat ,which already ate … was full.
The cats,which already ate … were full.

2.LSTM的内部结构

LSTM引入了几种新的元素:细胞状态 C<t> C < t > ,更新门 Γu Γ u ,遗忘门 Γf Γ f ,和输出门 Γo Γ o 。三种门作用大致如下:

  • 更新门:作用于细胞状态,决定更新什么信息。如“The cat ,which already ate … was full.”当输入”cat”时,会更新细胞状态,记住cat是单数。
  • 遗忘门:作用于细胞状态,决定遗忘什么信息。如“The cat ,which already ate … was full.”当输入“was”时,因为“was”是由“cat”决定的,所以会遗忘关于cat的信息。
  • 输出门:确定输出。
    这里写图片描述

    另外,在实际使用时,几个门值不仅仅取决于 a<t1> a < t − 1 > x<t> x < t > ,还可能会取决于上一个记忆细胞的值 c<t1> c < t − 1 > ,这也叫做偷窥孔连接。

3.LSTM的前向传播

下图较为清晰的展现了LSTM的前项传播过程,
LSTM内部结构及传输过程

4.LSTM的反向传播过程

在使用深度学习框架时,框架会为自动的为我们计算反向传播,不过了解一下LSTM的反向传播过程和公式也挺有好处。就是真的多啊这公式!嗨呀。

这里写图片描述
交叉熵详解:https://blog.youkuaiyun.com/tsyccnh/article/details/79163834
参考:https://blog.youkuaiyun.com/wjc1182511338/article/details/79285503

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值