RNN基础回顾(2)(LSTM)

本文深入介绍了LSTM(长短期记忆网络)的工作原理,包括其细胞状态、输入门、遗忘门和输出门等核心组件。LSTM通过门控机制有效地解决了标准RNN在处理长期依赖问题时的挑战,使其能够在更长的上下文中传递和利用信息。此外,文章还提到了LSTM在PyTorch中的实现,并对比了LSTM与传统RNN的区别。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  上一篇博客中已经回顾了最基础的RNN结构,还有RNN的输入层、输出层、隐藏层等相关概念,一般的RNN模型是一种将以往学习的结果应用到当前学习的模型,但是这种一般的RNN存在着许多的弊端。举个例子,如果我们要预测“the clouds are in the sky”的最后一个单词,因为只在这一个句子的语境中进行预测,那么将很容易地预测出是这个单词是sky。在这样的场景中,相关的信息和预测的词位置之间的间隔是非常小的,RNN 可以学会使用先前的信息。标准的RNN结构中只有一个神经元,一个tanh层进行重复的学习,这样会存在一些弊端。例如,在比较长的环境中,例如在“I grew up in France… I speak fluent French”中去预测最后的French,那么模型会推荐一种语言的名字,但是预测具体是哪一种语言时就需要用到很远以前的Franch,这就说明在长环境中相关的信息和预测的词之间的间隔可以是非常长的。在理论上,RNN 绝对可以处理这样的长环境问题。人们可以仔细挑选参数来解决这类问题中的最初级形式,但在实践中,传统RNN模型 并不能够成功学习到这些知识。然而,LSTM(长短期记忆神经网络)模型就可以解决这一问题。GRU作为LSTM的一种变体,将忘记门和输入门合成了一个单一的更新门。同样还混合了细胞状态和隐藏状态,加诸其他一些改动。最终的模型比标准的 LSTM 模型要简单,也是非常流行的变体。

LSTM(Long Short-Term Memory,长短期记忆网络)

1、总体结构

LSTM结构

  如图所示,标准LSTM模型是一种特殊的RNN类型,不考虑每个单元的内部构造,则与传统RNN的输入输出相同,在每一个重复的模块中有四个特殊的结构,以一种特殊的方式进行交互。在图中,每一条黑线传输着一整个向量,粉色的圈代表一种pointwise 操作(将定义域上的每一点的函数值分别进行运算),诸如向量的和,而黄色的矩阵就是学习到的神经网络层。LSTM模型的核心思想是“细胞状态”。“细胞状态”类似于传送带。直接在整个链上运行,只有一些少量的线性交互。信息在上面流传保持不变会很容易。 LSTM 有通过精心设计的称作为“门”的结构来去除或者增加信息到细胞状态的能力。门是一种让信息选择式通过的方法。LSTM有三种门:输入门、遗忘门和输出门。

2、内部结构

(1)遗忘门

 与传统RNN的内部结构计算非常相似,首先将当前时间步输入x_t与上一个时间步隐含状态h_{t-1}拼接,得到[h_{t-1} , x_t],然后通过一个全连接层做变换,最后通过sigmoid函数进行激活得到f_t,我们可以将f_t看作是门值,好比一扇门开合的大小程度,门值都将作用在通过该扇门的张量,遗忘门门值将作用的上一层的细胞状态上,代表遗忘过去的多少信息,又因为遗忘门门值是由h_{t-1} ,x_t计算得来的,因此整个公式意味着根据当前时间步输入x_t和上一个时间步隐含状态h_{t-1}来决定遗忘多少上一层的细胞状态所携带的过往信息。这一层是决定我们从“细胞”中丢弃什么信息,该层读取当前输入x_t和前神经元信息h_{t-1},由f_t来决定丢弃的信息。输出结果1表示“完全保留”,0 表示“完全舍弃”。(Sigmoid 函数输出 0 到 1 之间的数值,描述每个部分有多少量可以通过。0 代表“不许任何量通过”,1 就指“允许任意量通过”)

(2)输入门

   输入门位于LSTM整个单元的中间部分,可以看到输入门的计算公式有两个,第一个就是产生输入门门值的公式,它和遗忘门公式几乎相同,区别只是在于它们之后要作用的目标上,这个公式意味着输入信息有多少需要进行过滤。输入门的第二个公式是与传统RNN的内部结构计算相同,对于LSTM来讲,它得到的是当前的细胞状态,而不是像经典RNN得到的是隐含状态,tanh层来创建一个新的候选值向量 \widetilde{C_{t}} 加入到状态中。在语言模型的例子中,我们希望增加新的主语到细胞状态中,来替代旧的需要忘记的主语。

细胞状态更新结构与公式

  细胞更新的结构与计算公式非常容易理解,这里没有全连接层,只是将刚刚得到的遗忘门门值与上一个时间步得到的C_{t-1}相乘再加上输入门门值与当前时间步得到的未更新\widetilde{C_{t}}相乘的结果.最终得到更新后的C_t作为下一个时间步输入的一部分。整个细胞状态更新过程就是对遗忘门和输入门的应用。

(3)输出门

  输出门部分的公式也是两个,输出值基于细胞状态;第一个即是计算输出门的门值,由sigmoid组成的“输出门”产生的介于0到1之间的控制信号,它和遗忘门,输入门计算方式相同。第二个即是使用这个门值产生隐含状态h_t,他将作用在更新后的细胞状态C_t上,并做tanh激活,然后和第一步得到的O_t相乘,最终得到h_t作为下一时间步输入的一部分,整个输出门的过程,就是为了产生隐含状态h_t

3、在PyTorch中使用LSTM

使用方法与RNN一致,输入输出并没有特别大的差别,但是会多出一个细胞状态C_t

# 此处与RNN一致,都是input_size,hidden_size,num_layers
lstm=nn.LSTM(5,6,2)

输入输出的张量会多出一个细胞状态C。 

# 输入也是seq_len,batch_size,input_size
# 隐藏为num_layers,batch_size,hidden_size
# 初始化细胞状态张量c,和隐藏层输入一致
input=torch.randn(1,3,5)
h0=torch.randn(2,3,6)
c0=torch.randn(2,3,6)
output,(hn,cn)=lstm(input,(h0,c0))

可以打印处output的shape值查看张量形状。

output.shape

#torch.Size([1, 3, 6])

hn.shape

#torch.Size([2, 3, 6])

cn.shape

# torch.Size([2, 3, 6])

4、与传统RNN的区别

1、RNN没有细胞状态;LSTM通过细胞状态记忆信息。

2、RNN激活函数只有tanh;LSTM通过输入门、遗忘门、输出门引入sigmoid函数并结合tanh函数,添加求和操作,减少梯度消失和梯度爆炸的可能性。

3、RNN只能够处理短期依赖问题;LSTM既能够处理短期依赖问题,又能够处理长期依赖问题。

<think>好的,我现在需要回答用户关于RNNLSTM的差异与应用场景的问题。首先,我得先回顾一下RNNLSTM的基本概念。 用户提供的引用中有提到,RNN是处理序列数据的,比如时间序列或文本,它们有内部循环连接,可以记住前序信息[^1]。而LSTMRNN的一种变体,结构更复杂,有四个交互层,包括Sigmoid和tanh激活函数,用来解决长期依赖问题[^3][^4]。我需要比较两者的结构差异,比如RNN只有单一的神经网络层重复,而LSTM有四个层,这样的结构差异如何影响它们的记忆能力。 接下来是梯度问题。用户可能想知道为什么RNN会有梯度消失或爆炸的问题。根据知识,RNN在反向传播时,梯度会随时间步长连乘,导致梯度不稳定。而LSTM通过控机制(遗忘输入、输出)来控制信息的流动,从而缓解这个问题。需要具体说明这些的作用,比如遗忘决定保留多少旧信息,输入决定新增多少新信息,这样能有效管理记忆[^4]。 应用场景方面,RNN适合处理较短的序列,比如文本生成或时间序列预测,但可能在长序列上表现不佳。LSTM因为能捕捉长期依赖,更适合机器翻译、语音识别等需要长距离信息的任务。需要举一些例子,比如RNN用于简单的时间序列预测,而LSTM用于翻译或生成较长的文本。 另外,用户可能对实现代码感兴趣。需要给出简单的示例,比如RNN的循环结构和LSTM控实现。比如用PyTorch或者TensorFlow的代码片段,展示两者的层结构差异,比如LSTM有更多的参数和控计算。 还要注意引用用户提供的资料,比如引用[4]提到LSTM的结构差异和控机制,引用[1]关于RNN的基本原理。确保在回答中正确标注引用来源。 最后,生成的相关问题需要围绕两者的比较、优化、具体应用等,比如为什么LSTM能解决梯度消失,或者在实际项目中如何选择RNNLSTM。 需要检查是否符合格式要求:行内公式用$...$,独立公式用$$...$$,正确的中文回答,结构清晰,分点说明差异和应用场景,代码用代码块,相关问题在最后列出。</think>### RNNLSTM的差异与应用场景 #### 1. **核心差异** - **结构差异** - **RNN**:通过单一的循环层处理序列数据,每个时间步的隐藏状态$h_t$由当前输入$x_t$和前一步的隐藏状态$h_{t-1}$决定: $$h_t = \tanh(W_{xh}x_t + W_{hh}h_{t-1} + b_h)$$ 这种简单结构导致难以捕捉长距离依赖。 - **LSTM**:引入**控机制**(遗忘输入、输出)和**细胞状态(Cell State)**,通过以下公式控制信息流: - 遗忘:$f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f)$ - 输入:$i_t = \sigma(W_i \cdot [h_{t-1}, x_t] + b_i)$ - 候选记忆:$\tilde{C}_t = \tanh(W_C \cdot [h_{t-1}, x_t] + b_C)$ - 更新细胞状态:$C_t = f_t \odot C_{t-1} + i_t \odot \tilde{C}_t$ - 输出:$o_t = \sigma(W_o \cdot [h_{t-1}, x_t] + b_o)$ - 最终输出:$h_t = o_t \odot \tanh(C_t)$ 通过控机制,LSTM能选择性保留或遗忘信息,解决梯度消失问题。 - **梯度问题** - RNN在长序列中因梯度连乘导致梯度消失或爆炸,难以学习长期依赖。 - LSTM通过细胞状态的线性传播路径($C_t$更新公式中的$f_t \odot C_{t-1}$)保持梯度稳定,更适合长序列任务[^4]。 #### 2. **应用场景对比** | **场景** | **RNN适用性** | **LSTM适用性** | |-------------------------|----------------------------------|-----------------------------------| | **短序列任务** | ✅ 如时间序列预测、简单文本分类 | ✅ 但可能性能过剩 | | **长序列任务** | ❌ 易丢失早期信息 | ✅ 如机器翻译、文档摘要、语音识别 | | **实时性要求高** | ✅ 计算量小,推理速度快 | ❌ 参数量大,计算成本较高 | | **需捕捉长期依赖的任务**| ❌ 如生成连贯段落、视频分析 | ✅ 通过控机制有效管理记忆 | #### 3. **代码实现示例** - **RNN的简单实现(PyTorch)** ```python import torch.nn as nn class SimpleRNN(nn.Module): def __init__(self, input_size, hidden_size): super().__init__() self.rnn = nn.RNN(input_size, hidden_size, batch_first=True) def forward(self, x): output, _ = self.rnn(x) # output包含所有时间步的隐藏状态 return output ``` - **LSTM的实现(PyTorch)** ```python class SimpleLSTM(nn.Module): def __init__(self, input_size, hidden_size): super().__init__() self.lstm = nn.LSTM(input_size, hidden_size, batch_first=True) def forward(self, x): output, (h_n, c_n) = self.lstm(x) # h_n为最终隐藏状态,c_n为细胞状态 return output ``` #### 4. **关键总结** - **选择RNN的场景**:序列较短、资源受限(如嵌入式设备)、实时性要求高。 - **选择LSTM的场景**:需处理长序列依赖(如翻译、生成文本)、对精度要求高且计算资源充足[^4]。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值