长短时记忆网络(LSTM)的训练

最新推荐文章于 2025-07-12 16:35:50 发布

Duckie-duckie

最新推荐文章于 2025-07-12 16:35:50 发布

阅读量2.2w

点赞数 3

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：数据机器学习深度学习神经网络算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/zb123455445/article/details/78178790

本文详细介绍了长短时记忆网络（LSTM）的训练过程，包括LSTM训练算法框架、误差项沿时间的反向传递和权重梯度的计算。通过前向计算、反向传播和权重更新，阐述了LSTM训练中的关键步骤和公式推导。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

长短时记忆网络的训练

熟悉我们这个系列文章的同学都清楚，训练部分往往比前向计算部分复杂多了。LSTM的前向计算都这么复杂，那么，可想而知，它的训练算法一定是非常非常复杂的。现在只有做几次深呼吸，再一头扎进公式海洋吧。

LSTM训练算法框架

LSTM的训练算法仍然是反向传播算法，对于这个算法，我们已经非常熟悉了。主要有下面三个步骤：

前向计算每个神经元的输出值，对于LSTM来说，即 ft 、 it 、 ct 、 ot 、 ht 五个向量的值。计算方法已经在上一节中描述过了。
反向计算每个神经元的误差项 δ 值。与循环神经网络一样，LSTM误差项的反向传播也是包括两个方向：一个是沿时间的反向传播，即从当前t时刻开始，计算每个时刻的误差项；一个是将误差项向上一层传播。
根据相应的误差项，计算每个权重的梯度。

关于公式和符号的说明

首先，我们对推导中用到的一些公式、符号做一下必要的说明。

接下来的推导中，我们设定gate的激活函数为sigmoid函数，输出的激活函数为tanh函数。他们的导数分别为：

σ (z) σ' (z) tanh (z) tanh' (z) = y = 1 1 + e - z = y (1 - y) = y = e z - e - z e z + e - z = 1 - y 2 (8) (9) (10) (11)

从上面可以看出，sigmoid和tanh函数的导数都是原函数的函数。这样，我们一旦计算原函数的值，就可以用它来计算出导数的值。

LSTM需要学习的参数共有8组，分别是：遗忘门的权重矩阵 Wf 和偏置项 bf 、输入门的权重矩阵 Wi 和偏置项 bi 、输出门的权重矩阵 Wo 和偏置项 bo ，以及计算单元状态的权重矩阵 Wc 和偏置项 bc 。因为权重矩阵的两部分在反向传播中使用不同的公式，因此在后续的推导中，权重矩阵 Wf 、 Wi 、 Wc 、 Wo 都将被写为分开的两个矩阵： Wfh 、 Wfx 、 Wih 、 Wix 、 Woh 、 Wox 、 Wch 、 Wcx 。

我们解释一下按元素乘 ∘ 符号。当 ∘ 作用于两个向量时，运算如下：

a \circ b = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ a 1 a 2 a 3 . . . a n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ \circ ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ b 1 b 2 b 3 . . . b n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ a 1 b 1 a 2 b 2 a 3 b 3 . . . a n b n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥

当 ∘ 作用于一个向量和一个矩阵时，运算如下：

a \circ X = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ a 1 a 2 a 3 . . . a n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ \circ ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ x 11 x 21 x 31 x n 1 x 12 x 22 x 32 x n 2 x 13 x 23 x 33 . . . x n 3 . . . . . . . . . . . . x 1 n x 2 n x 3 n x n n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ a 1 x 11 a 2 x 21 a 3 x 31 a n x n 1 a 1 x 12 a 2 x 22 a 3 x 32 a n x n 2 a 1 x 13 a 2 x 23 a 3 x 33 . . . a n x n 3 . . . . . . . . . . . . a 1 x 1 n a 2 x 2 n a 3 x 3 n a n x n n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ (12) (13)

当 ∘ 作用于两个矩阵时，两个矩阵对应位置的元素相乘。按元素乘可以在某些情况下简化矩阵和向量运算。例如，当一个对角矩阵右乘一个矩阵时，相当于用对角矩阵的对角线组成的向量按元素乘那个矩阵：

d i a g [a] X = a \circ X

当一个行向量右乘一个对角矩阵时，相当于这个行向量按元素乘那个矩阵对角线组成的向量：

a T d i a g [b] = a \circ b

上面这两点，在我们后续推导中会多次用到。

在t时刻，LSTM的输出值为 ht 。我们定义t时刻的误差项 δt 为：

δ t = d e f \partial E \partial h t

注意，和前面几篇文章不同，我们这里假设误差项是损失函数对输出值的导数，而不是对加权输入 netlt 的导数。因为LSTM有四个加权输入，分别对应 ft 、 it 、 ct 、 ot ，我们希望往上一层传递一个误差项而不是四个。但我们仍然需要定义出这四个加权输入，以及他们对应的误差项。

n e t f, t n e t i, t n e t c ~, t n e t o, t δ f, t δ i, t δ c ~, t δ o, t = W f [h t - 1, x t] + b f = W f h h t - 1 + W f x x t + b f = W i [h t - 1, x t] +

最低0.47元/天解锁文章

200万优质内容无限畅学

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。