如何最简单、通俗地理解LSTM?

一、LSTM核心思想

  • LSTM是一种RNN模型
  • LSTM是对简单循环神经网络的改进
  • LSTM可以避免梯度消失的问题,可以有更长的记忆

1.1 Conveyor Belt(传输带)

  • 传输带记为向量Ct:过去的信息通过传输带直接送到下一个时刻,不会发生太大的变化。
  • LSTM就是靠传输带来避免梯度消失的问题

二、LSTM分布指南

2.1 Forget Gate(遗忘门)

  • 遗忘门有两部门组成;
  • 输入的Sigmoid函数是一个向量a,Sigmoid对向量a中的每一个元素都进行压缩,压缩在(0,1)之间的范围
  • Elementwise multiplication:两个矩阵对应位置元素进行乘积

遗忘门(ft):一个向量,有选择的让传输带C的值通过。

  • 假如f的一个元素为0,,则C对应的元素就不能通过,对应的输出为0。
  • 假如f的一个元素为1,,则C对应的元素全部通过,对应的输出为C本身。

参数矩阵Wf ,需要通过反向传播从训练数据中学习。

2.2 Input Gate(输入门)

输入门(it):更新传输带的值

参数矩阵Wi ,需要通过反向传播从训练数据中学习。

2.3 New value(新的值)

New value:将值添加到传输带上

2.4 Output gate(输出门)

输出门(Ot):

三、LSTM: Number of Parameters(参数数量)

有4个参数矩阵,每个参数矩阵

  • 行:shape(h)
  • 列:shape(h)+ shape(x)

LSTM参数数量(没有统计截距)

  • 4×shape(h)× [ shape(h)+ shape(x) ]

四、LSTM for IMDB Review

 # 设置超参数
 vocabulary = 10000   # 词典里面有10000个词汇
 embedding_dim=32     # shape(x)=32,词向量x的维度为32
 word_num = 500       # 每个电影评论有500个单词,如果超过500个单词,就会被截掉;如果不到500,就会补够。
 state_dim =32        # shape(h) = 32,状态向量h的维度为32
 ​
 ​
 # 开始搭建网络
 model = Sequential()     # 建立Sequential()模型
 # 往model里面加层,Embedding层,把词映射成向量
 model.add(Embedding(vocabulary,embedding_dim,input_length=word_num))
 # 需要指定状态向量h的维度,设置RNN层的return_sequences=False,表示RNN只输出最后一个状态向量h,把之前的状态向量舍去
 model.add(LSTM(state_dim,return_sequences=False))
 # 全连接层,输入RNN的最后一个状态h,输出0-1之间的数
 model.add(Dense(1, activation="sigmoid"))
 ​
 model.summary()

五、Summary(总结)

  • LSTM uses a "conveyor belt"to get longer memory than SimpleRNN.
  • Each of the following blocks has a parameter matrix:
    • Forget gate(遗忘门)
    • Input gate (输入门)
    • New value (新的输入)
    • Output gate(输出门)
  • Number of parameters: 4 x shape (h) x [ shape (h) +shape (x) ].


    LSTM序列模型预测+人工智能学习路线图 资料包都整理打包好了 无偿拿走

### LSTM的基本概念 LSTM(Long Short-Term Memory,长短时记忆网络)是由Hochreiter & Schmidhuber于1997年提出的,并经过Alex Graves等人进一步改良和推广的一种特殊类型的循环神经网络RNN)。其核心目标是解决传统RNN中存在的长期依赖问题以及梯度消失或爆炸的现象。通过精心设计的记忆单元结构,LSTM能够有效地捕获长时间序列中的上下文关系[^1]。 所有的RNN都可以看作是一个重复的神经网络模块组成的链条形式,在普通的RNN中,这种重复模块通常只包含一个简单的tanh层。然而,对于复杂的任务来说,这样的简单架构往往不足以应对更深层次的时间依赖性需求。因此,为了增强模型能力并缓解上述提到的传统RNN局限性,研究者引入了诸如LSTM这样更为先进的机制[^3]。 ### 通俗易懂的学习方法 要深入理解和掌握LSTM的工作原理及其实际应用场景,可以从以下几个方面入手: #### 1. **直观比喻** 可以把LSTM想象成一个人类的大脑工作过程。当我们在学习一门新学科比如高等数学的时候,我们的思维会经历几个阶段:遗忘旧的知识以便腾出空间接受新的信息;决定哪些部分应该保留下来成为永久记忆的一部分;最后还要考虑当前接收到的新知识点是否值得加入到已有的知识体系当中去。这正好对应着LSTM内部运作的关键组件——即三个主要控制门限:“忘记门”负责筛选掉不再重要的历史状态;“输入门”则用于评估即将进入的数据价值并将之合理保存起来;而“输出门”决定了最终呈现出来的结果是什么样子[^2]。 #### 2. **逐步拆解复杂结构** 尽管整体上看LSTM可能显得有些抽象难懂,但如果将其分解开来逐一分析各个组成部分的功能作用,则可以使整个理解变得更加清晰明了。具体而言,可以先从最基础的概念出发,例如什么是激活函数?为什么要采用sigmoid/tanh这类特定的选择等等。然后再过渡至更高层次的内容讨论,像为什么会有多个独立操作相互配合形成完整的计算流程等问题上进行思考探索[^5]。 #### 3. **实践动手实验** 理论固然重要,但如果没有亲自动手尝试过的话,那么再多的文字描述也可能只是停留在表面层面的理解而已。所以建议初学者可以通过编写简单的Python脚本来实现一个小规模版本的LSTM算法原型来进行验证测试。下面给出一段基于Keras库构建简易LSTM模型的例子供参考: ```python from keras.models import Sequential from keras.layers import Dense, Embedding, LSTM model = Sequential() model.add(Embedding(input_dim=1000, output_dim=64)) model.add(LSTM(units=128, activation='relu')) model.add(Dense(units=1, activation='sigmoid')) model.compile(optimizer='adam', loss='binary_crossentropy') print(model.summary()) ``` 此代码片段展示了如何利用高级API快速搭建起具备基本功能框架的一个二分类预测系统雏形。当然这只是入门级示范案例之一,随着经验积累还可以不断优化调整各项超参数设置以适应更加多样化的需求场景[^4]。 --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值