LSTM算法

最新推荐文章于 2025-06-21 14:23:45 发布

未来可期-2018

最新推荐文章于 2025-06-21 14:23:45 发布

阅读量845

点赞数

CC 4.0 BY-SA版权

文章标签：神经网络 python 深度学习

本文深入探讨了长短期记忆网络(LSTM)的工作原理，包括其三个关键的门控机制：遗忘门、输入门和输出门。此外，还介绍了LSTM的一种变体——门控循环单元(GRU)，并对比了两者之间的主要区别。最后，讨论了双向循环神经网络(Bi-RNN)如何利用过去和未来的数据信息，以及RNN在不同场景中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在这里插入图片描述
符号介绍

$c_t$ 为时刻 $t$ 时的单元状态
forget gate

$f=\sigma(w_f[h_{t-1},x_t])$ t-1时刻 $\displaystyle c_{t-1}$ 在t时刻保留 $f*c_{t-1}$
input gate

$i=\sigma(w_i[h_{t-1},x_t])$

$z=\tanh(w_z[h_{t-1},x_t])$

$t - 1$ 时刻在 $t$ 时刻输入 $x_t$ 保留 $i * z$
output gate

$c_t=f*c_{t-1}+i*z$

$o=\sigma(w_o[h_{t-1},x_t])$

输出为 $h(t)=\tanh(c_t) * o$

在这里插入图片描述

GRU对LSTM做了两个比较大的改动
- update gate 更新门 $\displaystyle z_t$
- reset gate 重置门 $\displaystyle r_t$
- 将单元状态合并为一个状态 $\displaystyle h_t$
GRU的前向计算公式为

$z_t=\sigma(W_z[h_{t-1},x_t])$

$r_t=\sigma(W_r[h_{t-1},x_t])$

$\widetilde h_t=\tanh(W[r_t*h_{t-1},x_t])$

$h=(1-z_t)h_{t-1}+z_t*\tilde h_t$

在这里插入图片描述

RNN无法利用未来信息，Bi-RNN可以同时输入历史和未来的数据信息，时序相反时两个循环神经网络连接统一输出，输出层可以同时获取历史未来信息。
双向循环神经网络的基本思想是: 每一个训练序列向前和向后分别是两个RNN，而且这两个都连接着一个输出层。这个结构提供给输出层输入序列中每一个点完整的过去和未来的上下文信息。6个独特的权值在每一时步被重复利用，六个权值分别对应着输入层到前向层隐含层和反向层隐藏层 $w_1,w_5)$ 、前向/后向隐含层到前向/后向隐含层 $w_2,w_5)$ 、向前和向后隐含层到输出层 $w_4,w_6)$

在这里插入图片描述
RNN网络适合处理序列数据¹，序列长度一般不是固定的。

上图最下层为输入向量，中间层为RNN的状态，最上层为输出向量

RNN的五个应用场景，一次对应上面的5个图

与使用固定计算步骤的固定网络相比，使用序列进行操作要更加强大。RNN将输入向量与状态向量用一个固定函数绑定起来，用来产生一个新的状态向量。在编程层面上，在运行一个程序时可以用特定的输入和一些内部变量对其进行解释。从这个角度上讲，RNN本质上可以描述程序。事实上，RNN是图灵完备的，即他们可以模拟任意程序。 ↩︎