神经网络的前向传播和误差反向传播（NN，RNN，LSTM）（三）

最新推荐文章于 2024-05-31 20:25:32 发布

Jiesonshan

最新推荐文章于 2024-05-31 20:25:32 发布

阅读量803

点赞数

文章标签：神经网络

deep learning 专栏收录该内容

13 篇文章

订阅专栏

本文介绍了递归神经网络（RNN）中存在的梯度消失和梯度爆炸问题，并深入探讨了解决这些问题的一种有效方法——长短时记忆（LSTM）网络。通过详细公式及推导过程，帮助读者理解LSTM如何实现长期依赖的记忆功能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文转载自：http://blog.youkuaiyun.com/u011414416/article/details/46694877 转载请注明原文出处

本文将简要介绍RNN存在的梯度消失和梯度爆炸问题，然后介绍长短时记忆（Long Short-Term memory，LSTM）的相关公式及推导过程。

以下内容主要引自Alex Graves写的Supervised Sequence Labelling with Recurrent Neural Networks 一书。
（http://www.springer.com/cn/book/9783642247965）

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Jiesonshan

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

长短时记忆网络(LSTM)

猫敷雪

11-06

1669

往期回顾在上一篇文章中，我们介绍了循环神经网络以及它的训练算法。我们也介绍了循环神经网络很难训练的原因，这导致了它在实际应用中，很难处理长距离的依赖。在本文中，我们将介绍一种改进之后的循环神经网络：长短时记忆网络(Long Short Term Memory Network, LSTM)，它成功的解决了原始循环神经网络的缺陷，成为当前最流行的RNN，在语音识别、图片描述、自然语言处理等许多领域中...

长短时记忆网络（LSTM）

马飞飞的博客

11-25

1万+

LSTM的引入 *虽然RNN的训练过程和多层神经网络差异不大，写程序较简单，但是Rnn的训练是十分困难的，而且很难学到长期依赖，因为当对参数进行求导更新时，式子中会使用链式法则不断乘积和求导，如在对参数w更新的式子中，会需要使用链式法则，这样当对一个变量针对变量函数求导时，会得到一个雅可比矩阵，这样就会出现两个问题。 [1].如果雅可比阵中有较小数时，经过多次矩阵相乘，梯度值会快速...

参与评论您还未登录，请先登录后发表或查看评论

从NN到RNN再到LSTM(3): 长短时记忆LSTM简介及计算

Clear.的博客

07-02

1万+

本文将简要介绍RNN存在的梯度消失和梯度爆炸问题，然后介绍长短时记忆（Long Short-Term memory，LSTM）的相关公式及推导过程。转载请注明出处：http://blog.youkuaiyun.com/u011414416/article/details/46724699以下内容主要引自Alex Graves写的Supervised Sequence Labelling with Recurr

理解RNN和LSTM

weixin_43335465的博客

10-18

784

理解RNN和LSTM 本文是台大李宏毅教授ML2020课程笔记。同时参考了其他博客。网上关于RNN和LSTM的blogs太多了，本文只是摘抄+笔记。 1. RNN RNN（Recurrent Neural Network）是一类用于处理序列数据的神经网络。所谓序列，通常除了数据维度以外，还存在广义的时间维度，即序列是有顺序的，反应了数据随着时间的变化状态，例如，一串语音信号、一段文本或者一段视频都是序列。 1.1 RNN结构传统的前馈神经网络包含输入层、输出层和隐藏层，通过激活函数控制输

深度学习--RNN循环神经网络和LSTM

ssheudjbdndnjd的博客

04-25

2138

我们来看一看百度百科给的解释下面是循环神经网络的一部分黑色直线代表权重，a1，a2代表存储单元，黄色框框代表输入，曲线是激活函数。

用numpy实现神经网络FC CNN、RNN、LSTM_nn-form cratch.zip

10-02

numpy作为一个强大的数值计算库，非常适合用来实现全连接网络中的矩阵运算，例如权重的初始化、前向传播、反向传播、梯度下降等。接下来是卷积神经网络（CNN，Convolutional Neural Networks），这种神经网络特别...

【模型架构】学习RNN、LSTM、TextCNN和Transformer以及PyTorch代码实现

cjy_colorful0806的博客

05-31

1901

在自然语言处理（NLP）领域，模型架构的不断发展极大地推动了技术的进步。从早期的循环神经网络（RNN）到长短期记忆网络（LSTM）、Transformer再到当下火热的Mamba（放在下一节），每一种架构都带来了不同的突破和应用。本文将详细介绍这些经典的模型架构及其在PyTorch中的实现，由于我只是门外汉（想扩展一下知识面），如果有理解不到位的地方欢迎评论指正～。个人感觉NLP的任务本质上是一个序列到序列的过程，给定输入序列，要通过一个函数实现映射，得到输出序列。

【NLP5-RNN模型、LSTM模型和GRU模型】

weixin_34280060的博客

03-18

1651

RNN（Recurrent Neural Network)中文称为循环神经网络，它一般以序列数据为输入，通过网络内部的结构设计有效捕捉序列之间的关系特征，一般也是以序列形式进行输出RNN的循环机制使模型隐层上一时间步产生的结果，能够作为当下时间步输入的一部分（当下时间步的输入除了正常的输入外还包括上一步的隐层输出）对当下时间步的输出产生影响根据反向传播算法和链式法则，梯度的计算可以简化为以下公式Dnσz1w1∗σz2w2∗σznwnDnσz1w1。

NLP学习笔记＜4＞循环神经网络RNN之(2)LSTM

m0_62089933的博客

10-09

823

4.1 长短期记忆网络与门控循环长短期神经网络（Long Short-term Memory, LSTM）神经网络能够进一步改善之前RNN的记忆能力并且减轻梯度爆炸和梯度消失的问题，它对RNN的主要修改在于将循环函数从简单的全连接改进为使用三个控制门的记忆单元，函数可以表示为：其中为sigmoid函数，其输出值在0 ...

长短时记忆网络（Long-Short Term Memory）

qq_42578970的博客

01-22

577

LSTM时RNN的变种，用于处理预测这个神经元的信息的辅助信息相距太远的情况，例如： I'm a student and I need to __ 预测这个空，student就是辅助信息，很容易找到，但对于下面这句话 I grow up in France...,so I can speak fluent __ 假设中间的省略部分特别长，且与他的语言学习无关，那么France就是辅助信息，但相隔太远，传统的RNN就难以得出正确结果。基本实现思路传统的隐藏层节点只有一个状态：H，而LSTM多了

长短时记忆神经网络（LSTM）

Medlen

09-24

1万+

下面为翻译文章，会稍有增删：原文：http://colah.github.io/posts/2015-08-Understanding-LSTMs/ 其他人的翻译：https://www.xiemingzhao.com/posts/eff2088e.html 类似的文章：https://www.jianshu.com/p/8219ca28925e 循环神经网络 人类不会每秒都从头开始思考。阅读本文时，您会根据对先前单词的理解来理解每个单词。您不会丢掉一切，重新从头开始思考。传统的神经网络无法做到这一

【机器学习】长短时记忆网络（LSTM）

weixin_42301220的博客

04-21

7834

文章目录1. 基本概念2. 长短时记忆网络的前向计算2.1 门2.2 遗忘门 1. 基本概念长短时记忆网络(Long Short Term Memory Network, LSTM)，它成功的解决了原始循环神经网络的缺陷，成为当前最流行的RNN，在语音识别、图片描述、自然语言处理等许多领域中成功应用。原始RNN无法处理长距离依赖，原始RNN的隐藏层只有一个状态，即h，它对于短期的输入非常敏感。长短时记忆网络在RNN的基础上再增加一个状态c，让它来保存长期的状态。新增加的状态c，称为单元状态(cel

由NN到LSTM

qftju的博客

05-09

871

由NN到LSTM 一、概述 NN(神经网络)模仿人的神经单元建立学习模型，通过调整模型中不同边的权重来得到更接近目标的输出结果。NN可以采用BP(后向传播)算法来确定每一次迭代中不同权重的学习速率。RNN是包含循环的网络，神经网络的隐层部分不只接收输入信息，还受前一时刻隐层网络的状态的影响，这样可以使得当前的输出与之前的隐层网络的状态有关，可以用于处理序列信息。然而当影响当前输出的之前时刻的隐

NLP学习笔记（四）：长短时记忆网络

u011426236的博客

04-08

570

长短时记忆网络（Long Short Term Memory (LSTM)） LSTM 模型 LSTM模型是RNN 模型的改进，可以避免梯度消失的问题，有更长的记忆。 LSTM也是一种循环神经网络，每当读取一个输入x就会更新状态h。LSTM的结构比简单RNN要复杂很多，简单RNN只有一个参数矩阵，LSTM有四个参数矩阵。下面我们具体来看LSTM的内部结构。 LSTM最重要的设计是传输带，记为向量CCC，过去的信息通过传送带直接送到下一个时刻，不会发生太大的变化，LSTM就是靠传输带来避免梯度消失的问题。

长短时记忆网络(LSTM)(超详细 |附训练代码)

最新发布

03-08

### RNN、LSTM 和 BiGRU 的对比 #### 循环神经网络（RNN）循环神经网络是一种用于处理序列数据的神经网络架构。传统RNN通过隐藏状态来传递信息，这使得它能够捕捉到输入数据中的时间依赖关系。然而，在实践中发现，标准RNN难以有效学习长期依赖关系，因为梯度消失问题会阻碍反向传播过程中远距离的信息流动[^1]。 ```python import torch.nn as nn class SimpleRNN(nn.Module): def __init__(self, input_size, hidden_size, output_size): super(SimpleRNN, self).__init__() self.rnn = nn.RNN(input_size, hidden_size, batch_first=True) self.fc = nn.Linear(hidden_size, output_size) def forward(self, x): out, _ = self.rnn(x) out = self.fc(out[:, -1, :]) return out ``` #### 长短期记忆单元（LSTM）为了克服RNN存在的局限性，Hochreiter和Schmidhuber提出了长短期记忆(LSTM)，这是一种特殊的RNN变体。LSTM引入了门控机制——遗忘门、输入门以及输出门，这些结构允许模型有选择地记住或忘记某些信息，从而更好地解决长时间跨度上的依赖问题。研究表明，对于许多任务而言，LSTM的表现优于传统的RNN架构。 ```python class LSTMModel(nn.Module): def __init__(self, input_dim, hidden_dim, layer_dim, output_dim): super(LSTMModel, self).__init__() self.hidden_dim = hidden_dim self.layer_dim = layer_dim self.lstm = nn.LSTM(input_dim, hidden_dim, layer_dim, batch_first=True) self.fc = nn.Linear(hidden_dim, output_dim) def forward(self, x): h0 = torch.zeros(self.layer_dim, x.size(0), self.hidden_dim).requires_grad_() c0 = torch.zeros(self.layer_dim, x.size(0), self.hidden_dim).requires_grad_() out, (hn, cn) = self.lstm(x, (h0.detach(), c0.detach())) out = self.fc(out[:, -1, :]) return out ``` #### 双向门控循环单元（BiGRU）双向门控循环单元(BiGRU)是在单向GRU基础上发展而来的改进版本之一。相比于简单的RNN，GRU简化了LSTM内部复杂的门控设计；而双向意味着该模型可以同时利用过去和未来的信息来进行当前时刻的状态更新。这种特性特别适用于自然语言处理等领域中需要考虑上下文语境的任务[^2]。 ```python class BidirectionalGRUNet(nn.Module): def __init__(self, vocab_size, embed_size, num_layers, hidden_size, output_size): super().__init__() self.embedding = nn.Embedding(vocab_size, embed_size) self.bigru = nn.GRU(embed_size, hidden_size, num_layers=num_layers, bidirectional=True, batch_first=True) self.fc = nn.Linear(hidden_size * 2, output_size) def forward(self, x): embedded = self.embedding(x) outputs, hn = self.bigru(embedded) final_output = self.fc(outputs[:,-1,:]) return final_output ``` 综上所述，虽然不同类型的递归神经网络各有特点，但在实际应用中它们之间的性能差异可能并不显著。具体选择哪种模型取决于应用场景的具体需求和技术实现细节。