LSTM神经网络和 GRU神经网络

最新推荐文章于 2025-10-25 21:04:23 发布

转载最新推荐文章于 2025-10-25 21:04:23 发布 · 6.6k 阅读

文章标签：

#RNN #LSTM #GRU #deep learning #Neural network

LSTM 同时被 3 个专栏收录

32 篇文章

订阅专栏

Recurrent Neural Network (RNN)

29 篇文章

订阅专栏

Gated Recurrent Unit (GRU)

1 篇文章

订阅专栏

本文深入解析了LSTM（长短期记忆网络）的工作原理及其如何克服传统RNN的梯度消失问题，并介绍了GRU（门控循环单元）作为LSTM的一种简化变体，包括其模型结构与训练过程。

LSTM是什么

LSTM即Long Short Memory Network，长短时记忆网络。它其实是属于RNN的一种变种，可以说它是为了克服RNN无法很好处理远距离依赖而提出的。

我们说RNN不能处理距离较远的序列是因为训练时很有可能会出现梯度消失，即通过下面的公式训练时很可能会发生指数缩小，让RNN失去了对较远时刻的感知能力。

∂E∂W=∑t∂Et∂W=∑tk=0∂Et∂nett∂nett∂st(∏tj=k+1∂st∂sk)∂sk∂W

解决思路

RNN梯度消失不应该是由我们学习怎么去避免，而应该通过改良让循环神经网络自己具备避免梯度消失的特性，从而让循环神经网络自身具备处理长期序列依赖的能力。

RNN的状态计算公式为 St=f(St−1,xt) ，根据链式求导法则会导致梯度变为连乘的形式，而sigmoid小于1会让连乘小得很快。为了解决这个问题，科学家采用了累加的形式， St=∑tτ=1ΔSτ ，其导数也为累加，从而避免梯度消失。LSTM即是使用了累加形式，但它的实现较复杂，下面进行介绍。

LSTM模型

回顾一下RNN的模型，如下图，展开后多个时刻隐层互相连接，而所有循环神经网络都有一个重复的网络模块，RNN的重复网络模块很简单，如下下图，比如只有一个tanh层。
这里写图片描述

这里写图片描述

而LSTM的重复网络模块的结构则复杂很多，它实现了三个门计算，即遗忘门、输入门和输出门。每个门负责是事情不一样，遗忘门负责决定保留多少上一时刻的单元状态到当前时刻的单元状态；输入门负责决定保留多少当前时刻的输入到当前时刻的单元状态；输出门负责决定当前时刻的单元状态有多少输出。

这里写图片描述

每个LSTM包含了三个输入，即上时刻的单元状态、上时刻LSTM的输出和当前时刻输入。

LSTM的机制

这里写图片描述

根据上图咱们一步一步来看LSTM神经网络是怎么运作的。

首先看遗忘门，用来计算哪些信息需要忘记，通过sigmoid处理后为0到1的值，1表示全部保留，0表示全部忘记，于是有

ft=σ(Wf⋅[ht−1,xt]+bf)

其中中括号表示两个向量相连合并， Wf 是遗忘门的权重矩阵， σ 为sigmoid函数， bf 为遗忘门的偏置项。设输入层维度为 dx ，隐藏层维度为 dh ，上面的状态维度为 dc ，则 Wf 的维度为 dc×(dh+dx) 。

这里写图片描述

其次看输入门，输入门用来计算哪些信息保存到状态单元中，分两部分，第一部分为

it=σ(Wi⋅[ht−1,xt]+bi)

该部分可以看成当前输入有多少是需要保存到单元状态的。第二部分为

c~t=tanh(Wc⋅[ht−1,xt]+bc)

该部分可以看成当前输入产生的新信息来添加到单元状态中。结合这两部分来创建一个新记忆。

这里写图片描述

而当前时刻的单元状态由遗忘门输入和上一时刻状态的积加上输入门两部分的积，即

ct=ft∗ct−1+it∗c~t

这里写图片描述

最后看看输出门，通过sigmoid函数计算需要输出哪些信息，再乘以当前单元状态通过tanh函数的值，得到输出。

ot=σ(Wo⋅[ht−1,xt]+bo)

ht=ot∗tanh(ct)

这里写图片描述

LSTM的训练

化繁为简，这里只讨论包含一个LSTM层的三层神经网络（如果有多个层则误差项除了沿时间反向传播外，还会向上一层传播），LSTM向前传播时与三个门相关的公式如下，

ft=σ(Wf⋅[ht−1,xt]+bf)

it=σ(Wi⋅[ht−1,xt]+bi)

c~t=tanh(Wc⋅[ht−1,xt]+bc)

ct=ft∗ct−1+it∗c~t

ot=σ(Wo⋅[ht−1,xt]+bo)

ht=ot∗tanh(ct)

需要学习的参数挺多的，同时也可以看到LSTM的输出 ht 有四个输入分量加权影响，即三个门相关的 ftitc~tot ，而且其中权重W都是拼接的，所以在学习时需要分割出来，即
Wf=Wfx+Wfh

Wi=Wix+Wih

Wc~=Wc~x+Wc~h

Wo=Wox+Woh

输出层的输入 yit=Wyiht ，输出为 yot=σ(yit) 。

设某时刻的损失函数为 Et=12(yd−yot)2 ，则某样本的损失为

E=∑Tt=1Et

设当前时刻t的误差项 δt=∂E∂ht ，那么误差沿着时间反向传递则需要计算t-1时刻的误差项 δt−1 ，则

δt−1=∂E∂ht−1=∂E∂ht∂ht∂ht−1=δt∂ht∂ht−1

LSTM的输出 ht 可看成是一个复合函数， f[ft(ht−1),it(ht−1),c~t(ht−1),ot(ht−1)] ，由全导数公式有，

\partial h t \partial h t - 1 = \partial h t \partial c t \partial c t \partial f t \partial f t \partial n e t f , t \partial n e t f , t \partial h t - 1 + \partial h t \partial c t \partial c t \partial i t \partial i t \partial n e t i , t \partial n e t i , t \partial h t - 1 + \partial h t \partial c t \partial c t \partial c ~ t \partial c ~ t \partial n e t c ~ , t \partial n e t c ~ , t \partial h t - 1 + \partial h t \partial o t \partial o t \partial n e t o , t \partial n e t o , t \partial h t - 1

其中 netf,tneti,tnetc~,tneto,t 表示对应函数的输入。将上述所有偏导都求出来，

\partial h t \partial c t = o t * (1 - tanh (c t) 2) \partial c t \partial f t = c t - 1 \partial f t \partial n e t f , t = f t * (1 - f t) \partial n e t f , t \partial h t - 1 = W f h

同样地，其他也可以求出来，最后得到t时刻和t-1时刻之间的关系。再设

δ f, t = \partial E \partial n e t f , t δ i, t = \partial E \partial n e t i , t δ c ~, t = \partial E \partial n e t c ~ , t δ o, t = \partial E \partial n e t o , t

得到，

δ t - 1 = δ f, t W f h + δ i, t W i h + δ c ~, t W c h + δ o, t W o h

接着对某时刻t的所有权重进行求偏导，

\partial E \partial W f h , t = \partial E \partial n e t f , t \partial n e t f , t \partial W f h , t = δ f, t h t - 1

\partial E \partial W i h , t = \partial E \partial n e t i , t \partial n e t i , t \partial W i h , t = δ i, t h t - 1

\partial E \partial W c h , t = \partial E \partial n e t c ~ , t \partial n e t c ~ , t \partial W c h , t = δ c ~, t h t - 1

\partial E \partial W o h , t = \partial E \partial n e t o , t \partial n e t o , t \partial W o h , t = δ o, t h t - 1

\partial E \partial W f x = \partial E \partial n e t f , t \partial n e t f , t \partial W f x = δ f, t x t

\partial E \partial W i x = \partial E \partial n e t i , t \partial n e t i , t \partial W i x = δ i, t x t

\partial E \partial W c x = \partial E \partial n e t c ~ , t \partial n e t c ~ , t \partial W c x = δ c ~, t x t

\partial E \partial W o x = \partial E \partial n e t o , t \partial n e t o , t \partial W o x = δ o, t x t

\partial E \partial b o , t = \partial E \partial n e t o , t \partial n e t o , t \partial b o , t = δ o, t

\partial E \partial b f , t = \partial E \partial n e t f , t \partial n e t f , t \partial b f , t = δ f, t

\partial E \partial b i , t = \partial E \partial n e t i , t \partial n e t i , t \partial b i , t = δ i, t

\partial E \partial b c , t = \partial E \partial n e t c ~ , t \partial n e t c ~ , t \partial b c , t = δ c ~, t

对于整个样本，它的误差是所有时刻的误差之和，而与上个时刻相关的权重的梯度等于所有时刻的梯度之和，其他权重则不必累加，最终得到

\partial E \partial W f h = \sum j = 1 t δ f, j h j - 1

\partial E \partial W i h = \sum j = 1 t δ i, j h j - 1

\partial E \partial W c h = \sum j = 1 t δ c ~, j h j - 1

\partial E \partial W o h = \sum j = 1 t δ o, j h j - 1

\partial E \partial b f = \sum j = 1 t δ f, j

\partial E \partial b i = \sum j = 1 t δ i, j

\partial E \partial b c = \sum j = 1 t δ c ~, j

\partial E \partial b o = \sum j = 1 t δ o, j

\partial E \partial W f x = \partial E \partial n e t f , t \partial n e t f , t \partial W f x = δ f, t x t

\partial E \partial W i x = \partial E \partial n e t i , t \partial n e t i , t \partial W i x = δ i, t x t

\partial E \partial W c x = \partial E \partial n e t c ~ , t \partial n e t c ~ , t \partial W c x = δ c ~, t x t

\partial E \partial W o x = \partial E \partial n e t o , t \partial n e t o , t \partial W o x = δ o, t x t

================================================================================================================================

GRU神经网络

前面已经详细讲了LSTM神经网络（文末有链接回去），接着往下讲讲LSTM的一个很流行的变体。

GRU是什么

GRU即Gated Recurrent Unit。前面说到为了克服RNN无法很好处理远距离依赖而提出了LSTM，而GRU则是LSTM的一个变体，当然LSTM还有有很多其他的变体。GRU保持了LSTM的效果同时又使结构更加简单，所以它也非常流行。

GRU模型

回顾一下LSTM的模型，LSTM的重复网络模块的结构很复杂，它实现了三个门计算，即遗忘门、输入门和输出门。

这里写图片描述

而GRU模型如下，它只有两个门了，分别为更新门和重置门，即图中的 zt 和 rt 。更新门用于控制前一时刻的状态信息被带入到当前状态中的程度，更新门的值越大说明前一时刻的状态信息带入越多。重置门用于控制忽略前一时刻的状态信息的程度，重置门的值越小说明忽略得越多。

这里写图片描述

GRU向前传播

根据前面GRU模型图来一步步看他是怎么向前传播的，根据图不难得到以下式子：

r t = σ (W r \cdot [h t - 1, x t])

z t = σ (W z \cdot [h t - 1, x t])

h ~ t = tanh (W h ~ \cdot [r t * h t - 1, x t])

h t = (1 - z t) * h t - 1 + z t * h ~ t

y t = σ (W o \cdot h t)

其中[]表示两个向量相连接，*表示矩阵元素相乘。

GRU的训练

从前面的公式中可以看到需要学习的参数就是 WrWzWhWo 那些权重参数，其中前三个权重都是拼接的，所以在学习时需要分割出来，即

W r = W r x + W r h

W z = W z x + W z h

W h ~ = W h ~ x + W h ~ h

输出层的输入 yit=Woh ，输出为 yot=σ(yit) 。

设某时刻的损失函数为 Et=12(yd−yot)2 ，则某样本的损失为

E=∑Tt=1Et

与前面LSTM网络类似，最终可以推出

\partial E \partial W o = δ y, t h t

\partial E \partial W z x = δ z, t x t

\partial E \partial W z h = δ z, t h t - 1

\partial E \partial W h ~ x = δ t x t

\partial E \partial W h ~ h = δ t (r t \cdot h t - 1)

\partial E \partial W r x = δ r, t x t

\partial E \partial W r h = δ r, t h t - 1

δ y, t = (y d - y o t) \cdot σ'

δ h, t = δ y, t W o + δ z, t + 1 W z h + δ t + 1 W h ~ h \cdot r t + 1 + δ h, t + 1 W r h + δ h, t + 1 \cdot (1 - z t + 1)

δ z, t = δ t, h \cdot (h ~ t - h t - 1) \cdot σ'

δ t = δ h, t \cdot z t \cdot ϕ'

δ r, t = h t - 1 \cdot [(δ h, t \cdot z t \cdot ϕ') W h ~ h] \cdot σ'

原文地址： http://blog.youkuaiyun.com/wangyangzhizhou/article/details/76651116

http://blog.youkuaiyun.com/wangyangzhizhou/article/details/77332582

LSTM神经网络 和 GRU神经网络

LSTM是什么

解决思路

LSTM模型

LSTM的机制

LSTM的训练

GRU神经网络

GRU是什么

GRU模型

GRU向前传播

GRU的训练

LSTM神经网络和 GRU神经网络