LSTM原理浅理解

最新推荐文章于 2025-06-22 18:03:33 发布

电气小子爱创新

最新推荐文章于 2025-06-22 18:03:33 发布

阅读量749

点赞数 11

CC 4.0 BY-SA版权

文章标签： lstm 人工智能神经网络深度学习

本文链接：https://blog.youkuaiyun.com/never_fail_in_EL/article/details/147836425

LSTM，全称是Long-Short Term Memory ,即长短期记忆，是一种有监督型的深度学习网络模型。该模型与其他模型的最大区别是具备双时序记忆功能（包括长期记忆与短期记忆），广泛应用于时序相关数据集的处理。

那为什么LSTM能够实现时序数据的处理能力呢？这得从深度学习（机器学习）的本质中探究：

当前，我们使用的深度学习其基本架构主要集中在神经网络层面，例如卷积神经网络、循环神经网络、多层感知机等等，它们有一个最大的共同点：都需要构建隐藏层来运算。而数据在隐藏层神经元之间的流动始终离不开一个参数——ω，也就是权重。

换句话来说，神经网络的基本要素ω所形成的线性方程组，构建了深度学习的核心根基。我们构建深度学习算法的底层逻辑，就是找到一组与数据集有着深度关联的ω，从而实现数据输入输出的对应。

现在我们来看一下LSTM，LSTM拥有两套记忆系统，分别是长期记忆系统和短期记忆系统。两者之间既相对独立又相互关联，可以理解为拥有两套ω，加上神经网络的一套，共三套ω，从而实现时序数据处理。

接下来我们来关注一下LSTM的三大控制系统：遗忘门、记忆门、输出门。

遗忘门：用来决定是否遗忘历史记忆的信息。其原理为通过比较当前时刻信息与历史记忆信息之间的关联程度，赋予历史记忆数据一个权值（通过sigmoid函数控制权值在[0,1]），从而决定历史记忆数据的删除与保留。主要服务于长期记忆系统，关系到历史长期记忆哪些需要删减。

输入门：也称为“记忆门”，用来决定是否记忆当前时刻的信息。其原理为通过提取当前时刻信息中的重要部分（通过tanh函数提取），提取出的部分再经过进一步筛选（通过sigmoid函数对每个数据点进行“评级”，取出最高级），最终决定数据的上传与否。主要服务于长期记忆系统，关系到当前记忆哪些需要增添到长期记忆中。