LSTM 详解

最新推荐文章于 2024-11-12 09:47:23 发布

qian99

最新推荐文章于 2024-11-12 09:47:23 发布

阅读量10w+

收藏 1.4k

点赞数 305

分类专栏：人工智能深度学习

本文链接：https://blog.youkuaiyun.com/qian99/article/details/88628383

版权

本文深入解析LSTM的工作原理，包括其大体结构、输入输出、门控机制（遗忘门、更新门层、输出门层）及参数计算。通过对LSTM的详细阐述，帮助初学者理解细胞状态和隐层状态如何交互，并提供LSTM的参数量计算示例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这篇文章打算讲一下LSTM，虽然这类文章已经很多了，但以前刚开始看的时候还是一知半解，有一些细节没有搞清楚，我打算借这篇文章好好梳理一下。

前言

在许多讲LSTM的文章中，都会出现下面这个图。
Alt text
在这里插入图片描述
说实话，这个图确实很清晰明了（对于懂的人来说）。在很多文章中我都发现了这样的问题，有的时候，对于已经明白的人，一些很“显然”的问题就被忽略了，但是对于刚入门的人来说，一些基础的问题却要搞很久才能弄明白。所以，我希望在这里能尽可能讲的“慢”一些，把细节部分都讲清楚。

当然了，在看这篇文章之前，大家应该对RNN有一个基础的了解。

LSTM的大体结构

相比于原始的RNN的隐层(hidden state)， LSTM增加了一个细胞状态(cell state)，我下面把lstm中间一个时刻t的输入输出标出来：在这里插入图片描述

我们可以先把中间那一坨遮起来，看一下LSTM在t时刻的输入与输出，首先，输入有三个：细胞状态 $C_{t-1}$ ，隐层状态 $h_{t-1}$ , $t$ 时刻输入向量 $X_t$ ，而输出有两个：细胞状态 $C_t$ , 隐层状态 $h_t$ 。其中 $h_t$ 还作为 $t$ 时刻的输出。

至于绿色框内部的结构与逻辑，我会在下面详细的讲，不过当前，我们从这个图里，只需要看出个大概就行了：

细胞状态 $C_{t-1}$ 的信息，一直在上面那条线上传递， $t$ 时刻的隐层状态 $h_t$ 与输入 $x_t$ 会对 $C_t$ 进行适当修改，然后传到下一时刻去。
$C_{t-1}$ 会参与 $t$ 时刻输出 $h_t$ 的计算。
隐层状态 $h_{t-1}$ 的信息，通过LSTM的“门”结构，对细胞状态进行修改，并且参与输出的计算。

总的来说呢，细胞状态的信息一直在上面那条线上传递，隐层状态一直在下面那条线上传递，不过它们会有一些交互，在LSTM中，通常被叫做“门”结构。

LSTM的输入输出

LSTM也是RNN的一种，输入基本没什么差别。通常我们需要一个时序的结构喂给LSTM，数据会被分成 $t$ 个部分，也就是上面图里面的 $X_t$ ， $X_t$ 可以看作是一个向量，在实际训练的时候，我们会用batch来训练，所以通常它的shape是**(batch_size, input_dim)**。当然我们来看这个结构的时候可以认为batch_size是1，理解和计算之类的也比较简单。