Long Short Term Memory（LSTM）

最新推荐文章于 2025-03-02 09:15:00 发布

Francis_s

最新推荐文章于 2025-03-02 09:15:00 发布

阅读量478

点赞数 1

分类专栏： Master深度学习文章标签： lstm 自然语言处理神经网络

本文链接：https://blog.youkuaiyun.com/Francis_s/article/details/120615291

版权

Master深度学习专栏收录该内容

9 篇文章

订阅专栏

LSTM（长短期记忆网络）通过引入门控机制解决了RNN的梯度消失问题。它包含遗忘门、输入门和输出门，允许网络选择性地保留或丢弃信息。遗忘门控制前一时刻的状态信息，输入门决定当前时刻新信息的存储，输出门则决定最终输出哪些记忆信息。这种设计使得LSTM能够有效地捕捉长期和短期依赖，缓解了梯度消失，提高了对长时间序列信息处理的能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

LSTM 的提出就是为了解决RNN的梯度消失/爆炸以至于引起对时间久远的信息不敏感的问题（久远的信息对当前时刻的更新不做贡献）

1.LSTM 结构

总的来说就是多了几个控制的门，每次新的信息进来还有每次拿旧的信息我都不是全部拿，而是有选择性地拿，至于怎么选择性地拿，就交给网络自己学习了

直接上图：

在RNN的基础上，除了隐层状态外，我们引入了新的状态 $C_t$ ，用来决定我要保留之前的多少信息。最最关键就是这个了C了，暂且称为Cell吧

首先先看这个C，这个C就是代表我们在当前这个时刻，要记住的东西，分别有两部分，第一部分是前一时刻保留了多少信息，第二部分保留当前时刻新进来的信息。这个东西就是LSTM和RNN做出区别的存在了，他可以让网络选择记住很久很久以前的信息，从而弥补RNN的缺点。

第一部分我们通过遗忘门去控制，就是上图的红色圈，这个圈的具体公式是，激活函数是sigmod，出来的值是0-1：

$f_t = \sigma(W_f*[h_{t-1}, x_t] + b_f)$

用人话来说就是我这个 $W_f$ 决定着我们还需不需要记住前面状态的信息，即当前时刻的记忆状态有多少是来自于前面的记忆。

第二部分公式：引用一下强哥的图：

先看上面遗忘门右边的，也就是这个红色框，我们管它叫更新门

这里包含两个部分。第一，sigmoid 层称 “输入门层” 决定什么值我们将要更新。然后，一个 tanh 层创建一个新的候选值向量： $\hat{C_t}$ ，会被加入到状态中。总的来说：这个门就是控制当前时刻的记忆有多少会来自于当前时刻的输入本身，

至此，我们当前时刻的cell状态了：

$C_t = f_t*C_{t-1} + i_t*\hat{C_t}$

理解这个C最最最主要的还是：代表我们在当前这个时刻，要记住的东西，分别有两部分，第一部分是前一时刻保留了多少信息（通过遗忘门去控制忘记了多少），第二部分保留当前时刻新进来的信息（通过更新门实现)

最后我们来看一下当前时刻的输出是怎么玩的！上图：

这个 $O_t$ 就是output了，同理，他可以通过矩阵 $W_o$ 去选择要多少当前的输入信息以及多少旧时刻的信息，我们管这个叫输出们。

接着，我们把细胞状态通过 tanh 进行处理（得到一个在 -1 到 1之间的值）并将它和输出门的输出相乘，最终我们仅仅会输出我们确定输出的那部分: $h_t$

最最后，再接一层softmax，就是真正的输出了。

2. Summary

LSTM在记忆这方面非常的灵活，就是既可以长期记忆也可以短期记忆，它在RNN的基础上增加了自由的选择记忆功能，也就是会有一个记忆cell，这里面会只存储和当前时刻相关的一些重要信息，毕竟每个时刻关注的上下文点可能不一样，这个交给网络自己选择，光有cell也不能起到好作用，还得有两个门协助它完成选择和过滤的功能，所以遗忘门帮助它衡量需要记住多少前面时刻的状态信息，更新门帮助它衡量需要记住当前时刻的多少状态信息，这俩一组合就是比较理想的记忆了。但是即使是这样， LSTM依然不放心把这个记忆作为输出，又加入了一个输出门，来自由的选择我用多少记忆的信息作为最后的输出，所以LSTM有了这三个门，有了记忆cell，使它变得更加的灵活，既可以捕捉短期依赖，也可以捕捉长期依赖，并且也缓解了梯度消失。总结在这里引用

3. LSTM是怎么解决梯度消失/爆炸的问题

我们应该还记得为什么RNN有这个问题，就是因为那个连乘公式： $\prod\frac{\partial S_j}{\partial S_{j-1}}$ , 就是一个 $tanh'W$ 的结果，当里面某一层的这个值，也就意味着这一层对当前反向传播是没有做出贡献的，反而是近距离的做出巨大的贡献，所以RNN无法捕捉长期依赖。

我们现在来看看LSTM怎么解决，上面提到了，输出其实是关于 $C_t$ 的函数，所以最后演变成 $\prod \frac{\partial C_j}{\partial C_{j-1}}$ 这个会影响结果是否会有梯度消失/梯度爆炸。

我们先把所有公式列出来，看看 $C_t$ 怎么来的：

然后把 $\prod \frac{\partial C_j}{\partial C_{j-1}}$ 根据链式求导法则列出来：

$\frac{\partial C_t}{\partial C_{t-1}} = \frac{\partial C_t}{\partial f_t}\frac{\partial f_t}{\partial h_{t-1}}\frac{\partial h_{t-1}}{\partial C_{t-1}} + \frac{\partial C_t}{\partial i_t}\frac{\partial i_t}{\partial h_{t-1}}\frac{\partial h_{t-1}}{\partial C_{t-1}}+ \frac{\partial C_t}{\partial \hat C_t}\frac{\partial \hat{C_t}}{\partial h_{t-1}}\frac{\partial h_{t-1}}{\partial C_{t-1}} + \frac{\partial C_t}{\partial C_{t-1}}$