如何理解 LSTM 中的 Cell State 和 Hidden State？

原创

于 2025-01-21 11:57:18 发布 · 1.1k 阅读

·

25

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#lstm #人工智能 #rnn

在深度学习领域，循环神经网络（Recurrent Neural Networks, RNNs）因其在处理序列数据方面的卓越表现而备受关注。然而，传统的RNN在处理长序列时容易遇到梯度消失和梯度爆炸的问题。为了解决这些问题，Hochreiter和Schmidhuber在1997年提出了长短期记忆网络（Long Short-Term Memory, LSTM）。LSTM通过引入特殊的结构单元——门控机制，有效地缓解了这些问题。本文将深入探讨LSTM中的两个核心概念：Cell State和Hidden State，帮助读者更好地理解和应用这一强大的模型。

什么是 LSTM？

LSTM是一种特殊的RNN，能够在处理长序列数据时保持长期依赖关系。它通过引入三个门控机制（输入门、遗忘门和输出门）以及一个Cell State来实现这一点。这些门控机制允许LSTM在网络中选择性地保留或丢弃信息，从而避免了传统RNN的梯度问题。

1. Cell State

Cell State是LSTM的核心组成部分之一，它类似于一个传输带，能够沿时间轴传输信息。与传统的RNN不同，LSTM的Cell State可以长时间保持信息，而不受梯度消失的影响。这是因为Cell State的信息更新方式相对简单，主要通过加法操作来实现。

Cell State 的更新过程

遗忘门（Forget Gate）：
遗忘门决定了哪些信息需要从Cell State中丢弃。它通过一个sigmoid激活函数计算一个0到1之间的值，表示每个Cell State元素的保留程度。具体公式如下：
[
f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f)
]
其中，( f_t ) 是遗忘门的输出，( W_f ) 是权重矩阵，( b_f ) 是偏置项，( h_{t-1} ) 是前一时刻的隐藏状态，( x_t ) 是当前时刻的输入。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。