pytorch中的nn.LSTM模块参数详解

最新推荐文章于 2025-11-10 18:11:29 发布

原创最新推荐文章于 2025-11-10 18:11:29 发布 · 4.4w 阅读

110

314 ·

CC 4.0 BY-SA版权

文章标签：

#nn.LSTM

pytorch 专栏收录该内容

13 篇文章

订阅专栏

本文深入探讨了PyTorch中LSTM（长短期记忆网络）的使用方法，详细解析了其参数设定，如input_size、hidden_size等，并通过实例展示了不同参数配置下LSTM的输出变化，适合深度学习初学者及进阶者阅读。

该文章已生成可运行项目，

官网：https://pytorch.org/docs/stable/nn.html#torch.nn.LSTM

Parameters（参数）：

input_size ：输入的维度

hidden_size：h的维度

num_layers：堆叠LSTM的层数，默认值为1

bias：偏置，默认值：True

batch_first： 如果是True，则input为(batch, seq, input_size)。默认值为：False（seq_len, batch, input_size）

bidirectional ：是否双向传播，默认值为False

输入

（input_size,hideen_size）

以训练句子为例子，假如每个词是100维的向量，每个句子含有24个单词，一次训练10个句子。那么batch_size=10,seq=24,input_size=100。(seq指的是句子的长度，input_size作为一个 $x_{t}$ 的输入) ，所以在设置LSTM网络的过程中input_size=100。由于seq的长度是24，那么这个LSTM结构会循环24次最后输出预设的结果。如下图所示。

h的输出主要是看预设的hidden_size，这个hideen_size主要是下面LSTM公式中的各个W和b的维度设置，以 $g_{t}$ 为例子，假设hideen_size为16，则 $W_{ig}$ 为16*100， $x_{t}$ 为100*1， $W_{hg}$ 为16*16， $h_{t-1}$ 为16*1。

(num_layers,bidirectional)

两个的结构的区别如下图所示：

输出

output ：（seq_len, batch, num_directions * hidden_size）

h_n：(num_layers * num_directions, batch, hidden_size)

c_n ：（num_layers * num_directions, batch, hidden_size）

如何输出，可以看上面那张图，图中有具体的。

此外，在输入的过程中，也可以给定 $h_{0},c_{0}$ ，如果没有给定那么默认为0。

(1)例子num_layers

import torch.nn as nn
import torch
x = torch.rand(10,24,100)
lstm = nn.LSTM(100,16,num_layers=2)
output,(h,c) = lstm(x)
print(output.size())
print(h.size())
print(c.size())

output:
torch.Size([24, 10, 16])
torch.Size([2, 10, 16])
torch.Size([2, 10, 16])

(2) 例子 bidirectional

import torch.nn as nn
import torch
x = torch.rand(10,24,100)
lstm = nn.LSTM(100,16,bidirectional=True)
output,(h,c) = lstm(x)
print(output.size())
print(h.size())
print(c.size())

output:
torch.Size([24, 10, 32])
torch.Size([2, 10, 16])
torch.Size([2, 10, 16])

(3) 例子 h0 c0

import torch.nn as nn
import torch
x = torch.rand(24,10,100) #seq,batch,input_size
h0 = torch.rand(1,10,16)# num_layers*num_directions, batch, hidden_size
c0 = torch.rand(1,10,16)
lstm = nn.LSTM(100,16)
output,(h,c) = lstm(x,(h0,c0))

本文章已经生成可运行项目

22 条评论

望舒剑鞘 2024.03.14
num_layer=2的那张图清晰明了，多层情况下句子每个单词的信息传递方式画得很清楚，感谢博主！

只是橘色仍温柔 2024.01.05
输出时batch和seqlength有颠倒，其他例子都很好，谢谢up

只是橘色仍温柔 2024.01.05
第一个例子numlayers输出有问题。正确程序如下 import torch.nn as nn import torch #只定义了input,h0和c0没有定义 # 这里是10个句子,每个句子24个单词,每个单词100维度 x = torch.rand(24,10,100) # 输入100维度,输出16维度 lstm = nn.LSTM(100,16,num_layers=2) #output ：（seq_len, batch, num_directions * hidden_size） #h_n：(num_layers * num_directions, batch, hidden_size) #c_n ：（num_layers * num_directions, batch, hidden_size） output,(h,c) = lstm(x) print(output.size()) print(h.size()) print(c.size()) # output: torch.Size([24, 10, 16]) torch.Size([2, 10, 16]) torch.Size([2, 10, 16])

949kai 2023.12.27
写得真好 [face]emoji:003.png[/face]

qq_37355830 2023.11.03
赞，推荐

站在井底憧憬星空 2022.06.22
torch.Size([10, 24, 16]) torch.Size([2, 24, 16]) torch.Size([2, 24, 16]) 第一个out输出是有问题的

风哥-全栈Ai工程师 2022.05.15
第一个少加了代码batch_first = True

weixin_42682725 2021.04.22
有毒
- Foneone回复weixin_42682725 2021.04.22
  ？？？

7192摸鱼怪 2021.04.16
这个bidirectional图中的图右下角箭头反了呢个lstm应该输出箭头朝右是这样嘛

Jxhacker 2021.04.01
感谢分享！但是我自己跑了一下你第一个代码，output的size是torch.Size([10, 24, 16])，为啥和你的不一样呢
- JR加加绒回复Jxhacker 2022.03.14
  x = torch.rand(24,10,100) #seq,batch,input_size 这句你是不是写错了，顺序写对了应该就不会错