LSTM的输入、输出介绍

最新推荐文章于 2025-04-16 11:40:48 发布

qq_45812502

最新推荐文章于 2025-04-16 11:40:48 发布

阅读量3.8k

点赞数 3

分类专栏：机器学习基础与算法文章标签： lstm 深度学习机器学习

本文链接：https://blog.youkuaiyun.com/qq_45812502/article/details/127297696

版权

机器学习基础与算法专栏收录该内容

5 篇文章

订阅专栏

LSTM输入输出说明

输入数据包括`input,(h_0,c_0):`

input就是shape==(seq_length,batch_size,input_size)的张量
h_0的shape==(num_layers×num_directions,batch,hidden_size)的张量，它包含了在当前这个batch_size中每个句子的初始隐藏状态，num_layers就是LSTM的层数，如果
bidirectional=True,num_directions=2,否则就是１，表示只有一个方向，
c_0和h_0的形状相同，它包含的是在当前这个batch_size中的每个句子的初始细胞状态。
h_0,c_0如果不提供，那么默认是０
batch_first=True, 就是让batch在输入和输出放在最前面的维度

输出数据包括output,(h_n,c_n):`

output的shape==(seq_length,batch_size,num_directions×hidden_size),它包含的LSTM的最后一层的输出特征(h_t),ｔ是batch_size中每个句子的长度.
h_n是包含了所有层的信息。shape==(num_directions × num_layers,batch,hidden_size)
c_n.shape==h_n.shape
h_n包含的是句子的最后一个单词的隐藏状态，c_n包含的是句子的最后一个单词的细胞状态，所以它们都与句子的长度seq_length无关。
output[-1]与h_n是相等的，因为output[-1]包含的正是batch_size个句子中每一个句子的最后一个单词的隐藏状态，注意LSTM中的隐藏状态其实就是输出，cell
state细胞状态才是LSTM中一直隐藏的，记录着信息。

自我解读

output是最后一层的输出，并且包含了句子每个token的输出，因此可用于字符级别的处理。
$h_n和c_n$ 的是包含了所有层的输出，他的第一维就是他的层数(direction*num_layers),然后第二维才是batch,第三维是代表整体的embeding维度，它相当于是一个句子级别的考量。

torch.nn.LSTM(*args, kwargs)**
参数
– input_size
– hidden_size
– num_layers
– bias
– batch_first
– dropout
– bidirectional
 
LSTM的输入 input, (h_0, c_0)
– input (seq_len, batch, input_size)
– h_0 (num_layers * num_directions, batch, hidden_size) # 初始的隐藏状态
– c_0 (num_layers * num_directions, batch, hidden_size) # 初始的单元状态，维度与h_0相同
 
LSTM的输出 output, (h_n, c_n)
– output (seq_len, batch, num_directions * hidden_size)#output保存了最后一层，每个time step的输出h
– h_n (num_layers * num_directions, batch, hidden_size) # 最后时刻的输出隐藏状态
– c_n (num_layers * num_directions, batch, hidden_size) # 最后时刻的输出单元状态，维度与h_n相同

先上结论：
1. output保存了最后一层，每个time step的输出h，如果是双向LSTM，每个time step的输出
   h = [h正向, h逆向] (同一个time step的正向和逆向的h连接起来)。
2. h_n保存了每一层，最后一个time step的输出h，如果是双向LSTM，单独保存前向和后向的
   最后一个time step的输出h。
3. c_n与h_n一致，只是它保存的是c的值。
 
下面单独分析三个输出
1. output是一个三维的张量，第一维表示序列长度，第二维表示一批的样本数(batch)，
   第三维是 hidden_size(隐藏层大小) * num_directions , 代码中可以发现num_directions
   根据是“否为双向”取值为1或2
 
2. h_n是一个三维的张量，第一维是num_layers*num_directions，num_layers是我们定义的
 神经网络的层数，num_directions在上面介绍过，取值为1或2，表示是否为双向LSTM。第二维表示
 batch_size 第三维表示隐藏层的大小。
 
 举个例子，我们定义一个num_layers=3的双向LSTM，h_n第一个维度的大小就等于 6 （2*3），h_n[0]
表示第一层前向传播最后一个time step的输出，h_n[1]表示第一层后向传播最后一个time step的输出，
h_n[2]表示第二层前向传播最后一个time step的输出，h_n[3]表示第二层后向传播最后一个time step的输出，
h_n[4]和h_n[5]分别表示第三层前向和后向传播时最后一个time step的输出。
 
3. c_n与h_n的结构一样

LSTM参考链接：https://blog.youkuaiyun.com/qq_16792139/article/details/118356220