【深度学习】包教包会LSTM

最新推荐文章于 2025-04-16 23:11:14 发布

shenxiaolu1984

最新推荐文章于 2025-04-16 23:11:14 发布

阅读量8.5k

点赞数 8

分类专栏：机器学习算法文章标签：深度学习 LSTM

本文链接：https://blog.youkuaiyun.com/shenxiaolu1984/article/details/53169118

版权

本文详细介绍了LSTM（长短期记忆网络）的模块结构，包括核心变量、门控机制和记忆更新。从输入到输出，阐述了LSTM如何处理信息并保留长期依赖。此外，还探讨了无输入LSTM、fast LSTM、双向LSTM和注意力LSTM等变体。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文本着由浅入深原则介绍LSTM模块结构，使用流程图 梳理公式，保证看完过目不忘，神清气爽。

模块结构

核心变量

从宏观上来看，LSTM模块有输入 $x_t$ ，输出 $y_t$ ，内部维护一个记忆变量 $c_t$ 。
这里写图片描述
一般用这三个核心变量来描述一个LSTM，记为 $\mathrm{LSTM}(x,y,c)$ 。有时,输出 $y$ 也被称为隐状态 $h$ 。

入口与门

除了主入口之外，输入 $x_t$ （红色）还从另外三个“门”进入LSTM模块：input，forget，output。
一起进入模块的，还有输出 $y$ （蓝色）和记忆 $c$ （绿色）。
前一时刻变量用虚线表示。
这里写图片描述

输入端口和门的结果记为 $z, i, f, o$ 。
这里写图片描述

具体表达式如下

意义	表达式
数据输入	$z=g([x_t,y_{t-1}])$
输入门	$i=\sigma([x_t,y_{t-1},c_{t-1}])$
遗忘门	$g=\sigma([x_t,y_{t-1},c_{t-1}])$
输出门

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

shenxiaolu1984

关注关注

8
点赞
踩
37

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

深度学习知识点全面总结

专注大数据与人工智能技术分享，欢迎私信加群互相学习！

01-05

33万+

本文详细介绍深度学习概念及原理，参考网上相关资料汇总，内容包含众多章节，包括神经网络基础及常见深度学习网络结构介绍，用于个人学习总结，适合深度学习初学者学习。同时介绍机器学习常见的分类算法：SVM、神经网络、随机森林、逻辑回归、KNN、贝叶斯。常见的监督学习算法：感知机、SVM、人工神经网络、决策树、逻辑回归.........

长短期记忆网络 (LSTM) 的工作机制 - 深度学习教程

shandianfk_com的博客

08-18

538

本文详细介绍了长短期记忆网络（LSTM）的工作机制及其在深度学习中的应用。通过解析 LSTM 的基本结构和工作原理，展示了其在解决长时间依赖问题方面的优势。同时，本文还列举了 LSTM 在自然语言处理、语音识别和时间序列预测等领域的实际应用实例，并简要介绍了 LSTM 模型的训练方法。

1 条评论您还未登录，请先登录后发表或查看评论

Python-LSTM构建使用KerasPython包来预测时间序列步骤和序列

08-12

LSTM构建使用Keras Python包来预测时间序列步骤和序列。包括正弦波和股票市场数据

lstm原始论文_基于lstm的日志异常检测工具包

weixin_39611161的博客

12-04

931

1. 前言日志异常检测模型从模型角度可以分为机器学习和深度学习两大方向，目前基于机器学习的已经有港中文开源的loglizer框架。鉴于使用rnn为主的深度模型在训练以及预测过程中api与基于机器学习(sklearn)的有较大差别，因此在实践过程中本人针对近两年发布的有关基于rnn的日志异常检测论文进行总结并提炼出了一个工具包logdeepgithub.com方便其他研究者继续在此基础上进行创新的...

一文读懂经典深度学习模型—CNN、RNN、LSTM、Transformer、ViT

04-16

1615

RNN作为一种特殊的神经网络架构，也被称作序列模型或反馈神经网络。它主要用于处理具有序列特性的数据，如自然语言文本、时间序列数据等。在这类数据中，前后元素之间存在着紧密的关联关系。RNN 的独特之处在于其隐状态（hidden state）h 机制。随着序列数据按顺序逐个输入，隐状态 h 能够动态地捕捉序列中每个时刻数据的特征信息，并将之前时刻的信息融入到当前时刻。这种特性使得 RNN 不仅能处理当前输入，还能考虑到历史输入所携带的信息，从而对整个序列进行全局理解。

LSTMVis:长期短期记忆网络（LSTM）的可视化工具箱

05-03

可视化分析RNN的状态变化有关LSTMVis，介绍视频以及实时演示链接的更多信息，请访问还可以在或在线演示中查看我们关于序列到序列模型的新工作，为 V2.1中的更改更新到Python 3.7 ++（感谢@nneophyt） V2的变化新设计和服务器后端隐藏状态轨道的离散缩放添加了用于元数据和预测的注释轨道为张量流添加了训练和提取工作流客户端现在是ES6和D3v4 客户端的一些性能增强添加了Keras教程（感谢Mohammadreza Ebrahimi）安装请使用python 3.7或更高版本来安装LSTMVis。克隆存储库： git clone https://github.com/HendrikStrobelt/LSTMVis.git ; cd LSTMVis 使用安装python（服务器端）要求： python -m venv venv3 sour

LSTM

微信号：RunsenLiu

05-19

2616

深度学习在自然语言处理中的应用自然语言处理是教会机器如何去处理或者读懂人类语言的系统，主要应用领域：对话系统情感分析图文映射机器翻译语音识别词向量模型计算机可只认识数字！我们可以将一句话中的每一个词都转换成一个向量你可以将输入数据看成是一个 16*D 的一个矩阵。词向量是具有空间意义的并不是简单的映射！例如，我们希望单词 “love” 和 “adore” 这两个词在向...

深度学习算法LSTM

weixin_43336108的博客

04-03

1258

【代码】深度学习算法LSTM。

深度学习与PyTorch入门实战教程-循环神经网络RNN&LSTM.rar

04-07

本教程旨在帮助初学者理解并掌握深度学习的基础，特别是循环神经网络（RNN）和长短时记忆网络（LSTM），这是处理序列数据，如自然语言和时间序列数据的常用模型。循环神经网络（Recurrent Neural Networks，RNN）...

LSTM深度学习教程与实践：数据、代码及文档全解析

文档会详细解释LSTM的基本原理、深度学习的概念、LSTM在深度学习中的角色和重要性，以及LSTM如何解决传统RNN的问题。此外，文档中可能还包含一些实例和图表，帮助读者更直观地理解LSTM的工作原理和应用效果。六、...

基于注意力机制的lstm实现_学术成果第4期 | 基于层次时间注意力机制的个体移动行为预测...

weixin_34369657的博客

01-16

3125

内容导读人类移动行为预测对传染病建模，位置服务，智能交通规划等具有重要意义。目前，人类移动行为预测的研究主要集中在依赖移动轨迹中的短期时间依赖，对个体即将访问的下一地点进行预测。然而，个体移动目的地的长时间序列预测，如一天、一周内依次访问了哪些地点，对于基于位置的长期规划亦具有应用价值。实际上，长期依赖普遍存在于人类移动行为中，即在不同时间尺度上(天、周、甚至月)展现出相关联的移动规律。...

深度学习入门课程---LSTM网络结构简介视频教程.mp4

02-07

深度学习入门课程---LSTM网络结构简介视频教程，希望能够学习者提供帮助，实现对LSTM网络结构基础知识的掌握与理解，为后续学习做好铺垫，实现LSTM网络结构知识的灵活运用

Understanding LSTM Networks -- colah's blog.pdf

12-14

一个经典的LSTM教程，以图形化方式开始，从RNN开始，逐步引入Cell的思想和各种门的思想。 Humans don’t start their thinking from scratch every second. As you read this essay, you understand each word based on your understanding of previous words. You don’t throw everything away and start thinking from scratch again. Your thoughts have persistence. Traditional neural networks can’t do this, and it seems like a major shortcoming. For example, imagine you want to classify what kind of event is happening at every point in a movie. It’s unclear how a traditional neural network could use its reasoning about previous events in the film to inform later ones. Recurrent neural networks address this issue. They are networks with loops in them, allowing information to persist.

LSTM 注意力学习心得简要

becgiggs的专栏

05-21

2826

1个月前看的，快忘了，紧急回忆一下。首先说一下看图像识别时候，百思不得其解的一个事儿，就是自动调整框框，如果识别一条狗，训练的时候，狗都出现在右下角，那么，测试的时候，是不是只能识别右下角的狗，是的，是有一定的区域分布的，就要求训练的时候，狗的位置要分布均匀比较好，这样权重w，就会分布到各处。最让我困惑的是，调整RPN的4个参数△P_MoveLeft,△P_MoveTop,△P_Enlar...

推荐开源项目：LSTM神经网络库

gitblog_00046的博客

06-19

514

基于注意力机制的lstm实现_一种基于注意力机制的自动标点引擎的测试体验

weixin_39990819的博客

01-09

860

报告我们基于深度学习的自动标点引擎，在合作团队的帮助下实现于2018年，论文已在今年发表。当时使用循环神经网络(RNN)中的双向长短时记忆(Bi-LSTM)作为特征提取器。这几年来，注意力机制开始取代RNN，发展为自然语言处理任务特征提取器的主流。最近，另一家合作团队刚刚完成了一种采用transformer架构的新引擎，使用的训练数据在之前的基础上又加入了四库全书，标点能力又获得进一步提...

LSTM再创新高：xLSTM、Vision-LSTM与混合架构引领SOTA新纪元

百态老人的博客

11-14

1247

Vision-LSTM（ViL）模型的训练过程如下：首先，在安装包方面，安装 timm 使用“pip install timm”命令，因为 mixup 增强和 EMA 会用到 timm。数据增强方面，为提高成绩在代码中加入 Cutout 和 Mixup 这两种增强方式，安装 torchtoolbox 可实现这两种增强，安装命令为“pip install torchtoolbox”。

LSTM与注意力机制的强强联合，创新成果层出不穷

AIzhijie001的博客

11-19

2252

注意力机制是一种使模型能够动态调整不同位置重要性的技术，它可以帮助模型集中注意力于相关性较高的部分，从而提高模型的性能和泛化能力。LSTM结合注意力机制的核心优势在于其能够动态地聚焦于序列数据中的关键信息，从而提升模型在处理长序列时的表现，增强表示能力，并在多种序列任务中实现更优的性能。通过在LSTM网络中加入注意力机制，提高了模型对地震数据中时间依赖性的识别能力，更有效地适应地震数据的识别。使用70%的数据训练模型，15%的数据作为验证集来调整模型参数，剩余15%的数据用于测试模型性能。

Tensorflow深度学习LSTM股票预测DEMO演示

根据给定的文件信息，我们可以展开对Tensorflow、LSTM、股票预测以及深度学习相关知识点的介绍。以下是对这些知识点的详细说明： 1. Tensorflow： TensorFlow是一个开源的机器学习框架，由Google大脑团队开发，用于...