LSTM通俗理解

来源:https://blog.youkuaiyun.com/zhengxqq27/article/details/90481590
在传统神经网络中,模型不会关注上一时刻的处理会有什么信息可以用于下一时刻,每一次都只会关注当前时刻的处理。举个例子来说,我们想对一部影片中每一刻出现的事件进行分类,如果我们知道电影前面的事件信息,那么对当前时刻事件的分类就会非常容易。实际上,传统神经网络没有记忆功能,所以它对每一刻出现的事件进行分类时不会用到影片已经出现的信息,那么有什么方法可以让神经网络能够记住这些信息呢?答案就是Recurrent Neural Networks(RNNs)递归神经网络。

递归神经网络的结果与传统神经网络有一些不同,它带有一个指向自身的环,用来表示它可以传递当前时刻处理的信息给下一时刻使用,结构如下:


这里写图片描述

其中, 为输出。

为了更容易地说明递归神经网络,我们把上图展开,得到:


这里写图片描述

这样的一条链状神经网络代表了一个递归神经网络,可以认为它是对相同神经网络的多重复制,每一时刻的神经网络会传递信息给下一时刻。如何理解它呢?假设有这样一个语言模型,我们要根据句子中已出现的词预测当前词是什么,递归神经网络的工作原理如下:

这里写图片描述

其中,W为各类权重,x表示输入,y表示输出,h表示隐层处理状态。

递归神经网络因为具有一定的记忆功能,可以被用来解决很多问题,例如:语音识别、语言模型、机器翻译等。但是它并不能很好地处理长时依赖问题。

长时依赖问题
长时依赖是这样的一个问题,当预测点与依赖的相关信息距离比较远的时候,就难以学到该相关信息。例如在句子”我出生在法国,……,我会说法语“中,若要预测末尾”法语“,我们需要用到上下文”法国“。理论上,递归神经网络是可以处理这样的问题的,但是实际上,常规的递归神经网络并不能很好地解决长时依赖,好的是LSTMs可以很好地解决这个问题。

LSTM 神经网络
Long Short Term Mermory network(LSTM)是一种特殊的RNNs,可以很好地解决长时依赖问题。那么它与常规神经网络有什么不同?
首先我们来看RNNs具体一点的结构:


这里写图片描述

所有的递归神经网络都是由重复神经网络模块构成的一条链,可以看到它的处理层非常简单,通常是一个单tanh层,通过当前输入及上一时刻的输出来得到当前输出。与神经网络相比,经过简单地改造,它已经可以利用上一时刻学习到的信息进行当前时刻的学习了。

LSTM的结构与上面相似,不同的是它的重复模块会比较复杂一点,它有四层结构:


这里写图片描述

其中,处理层出现的符号及表示意思如下:

这里写图片描述

LSTMs的核心思想
理解LSTMs的关键就是下面的矩形方框,被称为memory block(记忆块),主要包含了三个门(forget gate、input gate、output gate)与一个记忆单元(cell)。方框内上方的那条水平线,被称为cell state(单元状态),它就像一个传送带,可以控制信息传递给下一时刻。


这里写图片描述

这个矩形方框还可以表示为:

这里写图片描述

这两个图可以对应起来看,下图中心的 分别为遗忘门、输入门、输出门,用sigmoid层表示。上图中的两个tanh层则分别对应cell的输入与输出。

LSTM可以通过门控单元可以对cell添加和删除信息。通过门可以有选择地决定信息是否通过,它有一个sigmoid神经网络层和一个成对乘法操作组成,如下:


这里写图片描述

该层的输出是一个介于0到1的数,表示允许信息通过的多少,0 表示完全不允许通过,1表示允许完全通过。

逐步解析LSTM
LSTM第一步是用来决定什么信息可以通过cell state。这个决定由“forget gate”层通过sigmoid来控制,它会根据上一时刻的输出通过或部分通过。如下:


这里写图片描述

举个例子来说就是,我们在之前的句子中学到了很多东西,一些东西对当前来讲是没用的,可以对它进行选择性地过滤。

第二步是产生我们需要更新的新信息。这一步包含两部分,第一个是一个“input gate”层通过sigmoid来决定哪些值用来更新,第二个是一个tanh层用来生成新的候选值相加,得到了候选值。

一二步结合起来就是丢掉不需要的信息,添加新信息的过程:


这里写图片描述

举个例子就是,在前面的句子中我们保存的是张三的信息,现在有了新的李四信息,我们需要把张三的信息丢弃掉,然后把李四的信息保存下来。

最后一步是决定模型的输出,首先是通过sigmoid层来得到一个初始输出,然后使用tanh将
值缩放到-1到1间,再与sigmoid得到的输出逐对相乘,从而得到模型的输出。

这里写图片描述

这显然可以理解,首先sigmoid函数的输出是不考虑先前时刻学到的信息的输出,tanh函数是对先前学到信息的压缩处理,起到稳定数值的作用,两者的结合学习就是递归神经网络的学习思想。至于模型是如何学习的,那就是后向传播误差学习权重的一个过程了。

上面是对LSTM一个典型结构的理解,当然,它也会有一些结构上的变形,但思想基本不变,这里也就不多讲了。

转载来源:https://blog.youkuaiyun.com/shijing_0214/article/details/52081301

### LSTM的基本概念 LSTM(Long Short-Term Memory,长短时记忆网络)是由Hochreiter & Schmidhuber于1997年提出的,并经过Alex Graves等人进一步改良和推广的一种特殊类型的循环神经网络(RNN)。其核心目标是解决传统RNN中存在的长期依赖问题以及梯度消失或爆炸的现象。通过精心设计的记忆单元结构,LSTM能够有效地捕获长时间序列中的上下文关系[^1]。 所有的RNN都可以看作是一个重复的神经网络模块组成的链条形式,在普通的RNN中,这种重复模块通常只包含一个简单的tanh层。然而,对于复杂的任务来说,这样的简单架构往往不足以应对更深层次的时间依赖性需求。因此,为了增强模型能力并缓解上述提到的传统RNN局限性,研究者引入了诸如LSTM这样更为先进的机制[^3]。 ### 通俗易懂的学习方法 要深入理解和掌握LSTM的工作原理及其实际应用场景,可以从以下几个方面入手: #### 1. **直观比喻** 可以把LSTM想象成一个人类的大脑工作过程。当我们在学习一门新学科比如高等数学的时候,我们的思维会经历几个阶段:遗忘旧的知识以便腾出空间接受新的信息;决定哪些部分应该保留下来成为永久记忆的一部分;最后还要考虑当前接收到的新知识点是否值得加入到已有的知识体系当中去。这正好对应着LSTM内部运作的关键组件——即三个主要控制门限:“忘记门”负责筛选掉不再重要的历史状态;“输入门”则用于评估即将进入的数据价值并将之合理保存起来;而“输出门”决定了最终呈现出来的结果是什么样子[^2]。 #### 2. **逐步拆解复杂结构** 尽管整体上看LSTM可能显得有些抽象难懂,但如果将其分解开来逐一分析各个组成部分的功能作用,则可以使整个理解变得更加清晰明了。具体而言,可以先从最基础的概念出发,例如什么是激活函数?为什么要采用sigmoid/tanh这类特定的选择等等。然后再过渡至更高层次的内容讨论,像为什么会有多个独立操作相互配合形成完整的计算流程等问题上进行思考探索[^5]。 #### 3. **实践动手实验** 理论固然重要,但如果没有亲自动手尝试过的话,那么再多的文字描述也可能只是停留在表面层面的理解而已。所以建议初学者可以通过编写简单的Python脚本来实现一个小规模版本的LSTM算法原型来进行验证测试。下面给出一段基于Keras库构建简易LSTM模型的例子供参考: ```python from keras.models import Sequential from keras.layers import Dense, Embedding, LSTM model = Sequential() model.add(Embedding(input_dim=1000, output_dim=64)) model.add(LSTM(units=128, activation='relu')) model.add(Dense(units=1, activation='sigmoid')) model.compile(optimizer='adam', loss='binary_crossentropy') print(model.summary()) ``` 此代码片段展示了如何利用高级API快速搭建起具备基本功能框架的一个二分类预测系统雏形。当然这只是入门级示范案例之一,随着经验积累还可以不断优化调整各项超参数设置以适应更加多样化的需求场景[^4]。 --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值