pytorch lstm crf 代码理解

PyTorch LSTM-CRF 实现详解

最新推荐文章于 2025-10-24 09:25:25 发布

原创

最新推荐文章于 2025-10-24 09:25:25 发布 · 1.6w 阅读

91 ·

CC 4.0 BY-SA版权

文章标签：

#lstm #crf #pytorch

本文记录了作者在学习PyTorch教程中关于LSTM与CRF结合的心得与理解，详细解析了关键函数，并分享了反向传播的实现方式。作者推荐了一篇优秀的英文博客来深入理解CRF原理，并指出发射矩阵和转移矩阵的学习过程。

好久没有写博客了，这一次就将最近看的pytorch 教程中的lstm+crf的一些心得与困惑记录下来。

原文 PyTorch Tutorials

参考了很多其他大神的博客，https://blog.youkuaiyun.com/cuihuijun1hao/article/details/79405740

https://www.jianshu.com/p/97cb3b6db573

至于原理，非常建议读这篇英文博客，写的非常非常非常好！！！！！！值得打印出来细细品读！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！https://createmomo.github.io/2017/09/12/CRF_Layer_on_the_Top_of_BiLSTM_1/

在这位大神的基础上，根据自己的debug又添加了一些注释pytorch版的bilstm+crf实现sequence label

为了方便理解：

注意，

self.transitions = nn.Parameter(torch.randn(self.tagset_size, self.tagset_size)) 说明了转移矩阵是随机的！！！随机的！！！随机的！！！，而且放入了网络中，会更新的！！！会更新的！！！会更新的！！！

解释一下重点的函数功能：

def log_sum_exp(vec) 这个函数，是一个封装好的数学公式，里面先做减法的原因在于，减去最大值可以避免e的指数次，计算机上溢。

def _forward_alg(self, feats): 这个函数，只是根据随机的transitions ，前向传播算出的一个score，用到了动态规划的思想，但是因为用的是随机的转移矩阵，算出的值很大 score>20

def _get_lstm_features(self, sentence): 可以看出，函数里经过了embedding，lstm，linear层，是根据LSTM算出的一个矩阵。这里是11x5的一个tensor，而这个11x5的tensor，就是发射矩阵！！！发射矩阵！！！发射矩阵！！！（emission matrix）

def _score_sentence(self, feats, tags):是根据真实的标签算出的一个score，这与上面的def _forward_alg(self, feats)有什么不同的地方嘛？共同之处在于，两者都是用的随机的转移矩阵算的score，但是不同地方在于，上面那个函数算了一个最大可能路径，但是实际上可能不是真实的各个标签转移的值。例如说，真实的标签是 N V V，但是因为transitions是随机的，所以上面的函数得到的其实是N N N这样，两者之间的score就有了差距。而后来的反向传播，就能够更新transitions，使得转移矩阵逼近真实的“转移矩阵”。（个人理解）

def _viterbi_decode(self, feats):维特比解码，实际上就是在预测的时候使用了，输出得分与路径值。

这个函数是重点： def neg_log_likelihood(self, sentence, tags): feats = self._get_lstm_features(sentence)#11*5 经过了LSTM+Linear矩阵后的输出，之后作为CRF的输入。 forward_score = self._forward_alg(feats) #0维的一个得分，20.*来着 gold_score = self._score_sentence(feats, tags)#tensor([ 4.5836]) return forward_score - gold_score #这是两者之间的差值，后来直接根据这个差值，反向传播。。。神奇！！！！！！

def forward(self, sentence):forward函数只是用来预测了，train的时候没用调用它，这让我感到很震惊，还有这种操作？

import torch
import torch.autograd as autograd
import torch.nn as nn
import torch.optim as optim

def to_scalar(var): #var是Variable,维度是１
    # returns a python float
    return var.view(-1).data.tolist()[0]

def argmax(vec):
    # return the argmax as a python int
    _, idx = torch.max(vec, 1)
    return to_scalar(idx)

def prepare_sequence(seq, to_ix):
    idxs = [to_ix[w] for w in seq]
    tensor = torch.LongTensor(idxs)
    return autograd.Variable(tensor)

# Compute log sum exp in a numerically stable way for the forward algorithm
def log_sum_exp(vec): #vec是1*5, type是Variable

    max_score = vec[0, argmax(vec)]
    #max_score维度是１，　max_s

最低0.47元/天解锁文章

26 条评论

‘’雨落风停时‘’ 2024.05.07
请问一下这可以进行批量训练吗？

#苦行僧 2022.02.18
有gpu加速的代码不

WSL-WLL 2020.09.07
老哥，你确定这是CRF而不是HMM。

橘子汽水oO 2020.06.11
博主您好，您文章开头那篇英文博客，不知道为啥我点开就跳转到您的这篇文章了，能分享一下嘛

weixin_40981425 2020.06.02
请问我在运行自己的数据集时报错是为什么<ipython> in _score_sentence(self, feats, tags) 104 105 score = score + \ --> 106 self.transitions[tags[i+1], tags[i]] + feat[tags[i+1]] 107 108 score = score + self.transitions[self.tag_to_ix[STOP_TAG], tags[-1]] IndexError: index 9 is out of bounds for dimension 0 with size 9

syw13797009440 2019.12.12
你的每一个？都能引起我的共鸣

冉筱柒 2019.12.05
请问lstm的输出为什么是11*5,实际上只有三种类型的label，应该是11*3才对呀
- JimmieZou回复冉筱柒 2019.12.26
  [reply]qq_18595455[/reply] 加上了START_TAG和STOP_TAG

橘子辉煌鸭 2019.11.28
请问开始符号作用是什么
- Im_caviar回复橘子辉煌鸭 2019.11.29
  [reply]weixin_43256434[/reply] 同问

lxgend 2019.11.02
请教，self.lstm = nn.LSTM(embedding_dim, hidden_dim // 2..)hidden_dim为什么要除以2？
- wangping8689回复lxgend 2019.11.15
  [reply]u014248267[/reply] 128是一个比较常用的值，你可以试试别的，看效果怎么样
- lxgend回复wangping8689 2019.11.12
  [reply]Wdsh13478896311[/reply] 请问hidden_dim设置为多少比较好？
- wangping8689回复lxgend 2019.11.08
  [reply]u014248267[/reply] 源码中的hidden_dim默认使用的是[h_forward, h_backward]的维度，而torch.nn.LSTM只需要传h_forward或h_backward的维度就可以。torch.nn.LSTM实现双向是通过参数bidirectional=True。有些代码中定义的hidden_dim是h_forward的维度，此时就不需要除以2。

ancient_wizard_wjs 2019.03.23
你好，请问一下你知道如何将完整的代码在GPU上跑通吗，我的老是报错[code=html] Traceback (most recent call last): File "lstm_crf.py", line 281, in <module> loss = model.neg_log_likelihood(sentence_in, targets) File "lstm_crf.py", line 205, in neg_log_likelihood feats = self._get_lstm_features(sentence) File "lstm_crf.py", line 120, in _get_lstm_features lstm_out, self.hidden = self.lstm(embeds, self.hidden) # 11*1*4 File "/home/sjwang/py/python3/lib/python3.6/site-packages/torch/nn/modules/module.py", line 489, in __call__ result = self.forward(*input, **kwargs) File "/home/sjwang/py/python3/lib/python3.6/site-packages/torch/nn/modules/rnn.py", line 179, in forward self.dropout, self.training, self.bidirectional, self.batch_first) RuntimeError: Input and hidden tensors are not at the same device, found input tensor at cuda:0 and hidden tensor at cpu [/code]
- Beira_BF回复ancient_wizard_wjs 2020.08.18
  [reply]ancient_wizard_wjs[/reply]我也遇到了……请问是怎么解决的呢？
- weixin_40206421回复chideyan 2020.08.04
  [reply]chideyan[/reply]我也遇到了这样的问题，请问您是如何解决的呢？
- 「已注销」回复ancient_wizard_wjs 2019.12.10
  [reply]ancient_wizard_wjs[/reply] 哈哈我也遇到了，是不是隐藏层部分张量要to(device)。。
- 奔波儿灞爸回复chideyan 2019.07.17
  [reply]chideyan[/reply] 您现在解决这个问题了吗？我也遇到了同样的错误想请教一下。
- chideyan回复ancient_wizard_wjs 2019.07.07
  [reply]ancient_wizard_wjs[/reply] 你好我也出现了这样的问题请问你是怎样解决的啊？