LSTM模型

一、LSTM模型的结构

1.LSTM也称为长短时记忆结构。

2.和经典RNN相比,能够有效捕捉长序列之间的语义关联,缓解梯度消失或爆炸现象。

3.LSTM结构复杂,内部有3个门+1个细胞状态:遗忘门、输入门、细胞状态和输出门。

4.由输入层、隐藏层、输出层组成。

5.每个时间步有三个输入:数据端输入,上一个时间步细胞状态C_{t-1},上一个时间步的h_{t-1}

6.每个时间步有三个输出:数据端输出、本时间步细胞状态C_{t} ,本时间步h_{t}

二、LSTM模型的几个门的工作原理

1.遗忘门及其相关运算

  • f_t = \sigma(W_f [h_{t-1}, x_t] + b_f)
  • f_t * C_{t-1}

  • 上一个时间步隐藏层输出和数据端输入拼接在一起,与权重参数\mathbf{W}_f进行矩阵运算,再把数据经过sigmoid变换到[0,1]区间,形成输入门。
  • 遗忘门作用在上一个时间步细胞状态之上,表示对上一个时间步信息遗忘多少。

2.输入门及相关运算

  • i_t = \sigma(W_i [h_{t-1}, x_t] + b_i)
  • \tilde{C}_t = \tanh(W_c [h_{t-1}, x_t] + b_c)
  • i_t * \tilde{C}_t
  • 输入门作用内部细胞状态,表示对内部细胞状态要使用多少。

3.细胞状态更新相关运算

  • C_t = f_t * C_{t-1} + i_t * \tilde{C}_t
  • 遗忘门作用在上一个时间步细胞状态之上+输入门作用内部细胞状态之上,更新细胞状态。

4.输出门及相关运算

  • O_t = \sigma(W_o [h_{t-1}, x_t] + b_o)
  • h_t = O_t * tanh(C_t )
  • 输出门作用内部细胞状态之上,表示对内部细胞状态要使用多少。

三、LSTM(Long Short-Term Memory)是如何实现记忆信息的?

  • LSTM引入门控机制和细胞状态,也就是内部记忆单元。
  • 在一个训练好的网络中,当输入的序列中没有重要的信息时,LSTM的遗忘门的数值接近于1,输入门的数据接近于0,此时过去的记忆被保存,从而实现了长期的记忆功能。
  • 当输入的序列中出现了重要的信息时,LSTM应该把其存入记忆时,此时输出门的数值接近于1。
  • 引入各种门机制(遗忘门、输入门、输出门和细胞状态)可以控制当前时间步、以前时间步的信息谁重要谁不重要,从而实现LSTM(长短时记忆网络)。

四、LSTM(长短时记忆网络)中的“门控”单元有哪几种类型?

        LSTM中的“门控”单元包括输入门、输出门和遗忘门,他们允许模型选择性的更新或忽略内部记忆。

  • 遗忘门:决定了哪些信息应该从细胞状态中遗忘掉。
  • 输入门:控制着有多少信息可以流入细胞状态。
  • 输出门:决定了细胞状态的哪部分将输出到隐藏状态。
        这三种门控单元共同作用,使得LSTM网络能够在处理序列数据时选择性地更新、遗忘和输出信息,从而更 好地控制信息的流动和记忆状态。这使得LSTM相对于传统的RNN在处理长时序依赖问题时更为有效。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值