使用BERT + Bi-LSTM + CRF 实现命名实体识别

原创

已于 2022-04-22 16:06:06 修改 · 2.1w 阅读

336 ·

CC 4.0 BY-SA版权

文章标签：

#pytorch #nlp #深度学习

于 2022-03-26 23:59:52 首次发布

本文详细解析了使用BERT、LSTM与CRF结合实现命名实体识别(NER)的技术流程，涵盖数据预处理、模型架构及训练等多个方面。

文章目录

1.前言
2.数据预处理
- - 2.1本地查看数据转换后的结果
3.构建数据集
4.数据集分割
5.模型架构
- - 5.1模型初始化
  - 5.2前向传播过程
6.模型训练
7.整体训练过程

1.前言

本文主要分析本次实验的代码，讲解主要流程和代码含义，并不关注参数的选择和模型的选择
后续可能还会更新 model 的原理
如果有问题，欢迎评论或私聊讨论
若分析过程出现错误，请及时指正，谢谢

2.数据预处理

原始标注：对句子中的每个字标注上一个标签，可以简单地看成是直接对每个字分类（需要融合上下文信息），因此可以使用一个多分类器，分类器输出类别就是该字的标签
联合标注：对一串连续的字标注相同的标签。在NER任务中，实体由一个或多个字组成，所以它属于联合标注任务。

但是在联合标注中，相邻词语标签之间可能会存在依赖关系。这一问题可以通过标签转化的方式，把联合标注转化成原始标注解决。

我们这里使用的是BIOS标注

标签	含义
B-X	该字是词片段 X 的起始字
I-X	该字是词片段 X 起始字之后的字
S-X	该字单独标记为 X 标签
O	该字不属于事先定义的任何词片段类型

在process.py中，我们将.json文件中的语句和标签，按照BIOS方式，处理转换成了.npz文件。主要代码如下。分析过程写在注释中，依据样例.json。

text = json_line['text']
words = list(text)  # 自动将句子按字符分开
# 如果没有label，则返回None
label_entities = json_line.get('label', None)  # 参照下面的例子, 该项对应 label 之后的内容
labels = ['O'] * len(words)  # [len(words) 个 'O'] 都初始化为 `O`

if label_entities is not None:
    for key, value in label_entities.items():  # key 对应 name 和 company, value 对应后面存储内容
        for sub_name, sub_index in value.items():  # sub_name 对应 叶老桂等, sub_value 对应后面的索引
            for start_index, end_index in sub_index:  # 对应列表中的两个数,是标签开始和结束的位置
                assert ''.join(words[start_index:end_index + 1]) == sub_name
                if start_index == end_index:  # 单个字作为索引
                    labels[start_index] = 'S-' + key
                    else:
                        labels[start_index] = 'B-' + key  # 开头
                        labels[start_index + 1:end_index + 1] = ['I-' + key] * (len(sub_name) - 1)  # 中间的字

字符串转 list验证
- 这里很重要的一点是，输入的字符串都转成单字符了，下面使用 tokenize 的时候会看到为什么
```
a = "你好,我是nsy,哈哈哈"
print(list(a))
>>['你', '好', ',', '我', '是', 'n', 's', 'y', ',', '哈', '哈', '哈']
```

.json文件中，数据存储结构如下所示

{
   
   
	"text": "浙商银行企业信贷部叶老桂博士则从另一个角度对五道门槛进行了解读。叶老桂认为，对目前国内商业银行而言，",
	"label": {
   
   
		"name": {
   
   
			"叶老桂": [
				[9, 11],
				[32, 34]
			]
		},
		"company": {
   
   
			"浙商银行": [
				[0, 3]
			]
		}
	}
}

2.1本地查看数据转换后的结果

code

import numpy as np
a = np.load(r'D:\2022 spring\nlp\exp4\code\BERT-LSTM-CRF\data\clue\test.npz', allow_pickle=True)
index = 0
words = a['words']
labels = a['labels']
print(words[0])
print(labels[0])

结果
```
['彭
```

最低0.47元/天解锁文章

51 条评论

weixin_48926714 2024.12.11
大佬，您好，我为了测试我自己的数据集，发现总是生成不了npz文件，于是我把原文件的train.npz删除，运行run.py发现原作者的npz也生成不了啊，所以他写的npz文件生成方法是不是有错误
- 长命百岁️回复weixin_48926714 2024.12.14
  你好，我已经很久没有接触这块了，我已经没什么印象了

人要野 2024.07.24
您好，请问一下如果替换成自己的数据集，修改了源代码数据预处理的方法，还需要改什么地方吗？

Ciki 2024.03.30
您好，我想请问一下，验证集loss过大是什么原因导致的亚

2301_77987767 2024.01.12
您好，我想了解一下，模型训练完以后，我想使用模型去新的文本进行实体识别，这段代码有吗
- 长命百岁️回复2301_77987767 2024.01.14
  这部分其实就是模型在新的样本上得到结果以后，按照lable把句子里的词组合起来，可以自己写一下

qwert19710719 2023.12.13
博主您好，我在运行代码时出现了“OSError: Error no file named ['pytorch_model.bin', 'tf_model.h5', 'model.ckpt.index'] found in directory”的报错，请问这个该怎么解决呢
- 长命百岁️回复qwert19710719 2023.12.15
  像是没有下载模型

平凡的我dd 2023.04.29
你好，我想知道怎么形成相同的数据存储结构呢？
- 哆啦aaaaaa梦回复平凡的我dd 2023.05.22
  写脚本转换

ibudhydgy 2023.03.27
你好我也遇到了这种情况请问您是怎么处理的呢
- 长命百岁️回复ibudhydgy 2023.03.29
  我觉得像这种问题要么是输入格式有问题（或者没有进行tokenize之类的），要么是版本问题
- ibudhydgy回复长命百岁️ 2023.03.29
  请问是pytorch版本与源码不一致？
- ibudhydgy回复长命百岁️ 2023.03.29
  谢谢您请问具体是什么的版本不对头呢？[face]emoji:002.png[/face][face]emoji:002.png[/face]有这样的警告Precision and F-score are ill-defined and being set to 0.0 in labels with no predicted samples. Use `zero_division` parameter to control this behavior.
- 长命百岁️回复ibudhydgy 2023.03.29
  这个我同学遇到过，我没遇到过，会不会是环境问题。之前我用paddlepaddle，版本问题导致算啥都是0
- ibudhydgy回复长命百岁️ 2023.03.27
  训练出来的P R和 F一直是0[face]emoji:013.png[/face][face]emoji:013.png[/face]
- 长命百岁️回复ibudhydgy 2023.03.27
  请问是什么情况呢

Leonard KK 2023.03.21
你好，我想请问一下跑到最后的f1值是多少
- 长命百岁️回复Leonard KK 2023.03.21
  这个时间有点太久远了，我回头给你找一下

fishtailer_025 2023.02.13
您好，我想问一下源代码里面requrements.txt里@ file:///tmp/build/80754af9/pillow_1603822238230/work这些是什么，不管他直接安装似乎会产生库的版本冲突
- fishtailer_025回复长命百岁️ 2023.02.13
  我把它这个类似乱码的东西删了，直接安装提示mkl-random和numpy的版本不太对，然后我试着自己找了一些对应的版本，训练的时候提示cuda runtimeeroor，感觉还是库的版本不太对
- 长命百岁️回复fishtailer_025 2023.02.13
  这个我也忘记了，不过创建新的环境再安装会产生版本冲突吗？

weixin_46556535 2023.02.08
您好，我想问一下我直接用的这个模型和数据但是训练出来的f1一直都是0
- m0_65145041回复Violetuy 2024.10.24
  您好，我也遇到了这样的问题，请问您解决了吗
- m0_65145041回复weixin_46556535 2024.10.24
  您好，我也遇到了这样的问题，请问您解决了吗
- Violetuy回复weixin_46556535 2024.06.11
  您好，我也遇到了这样的问题，请问您解决了吗
- Ciki回复weixin_46556535 2024.03.31
  您好，我也遇到这样的问题，减少了数据集的量f1就是0，请问解决了吗
- 是真的小黑回复ibudhydgy 2023.05.17
  请问解决了吗？我第一遍训练的时候有f1值，但是第二遍训练的时候f1值就全是0了
- ibudhydgy回复weixin_46556535 2023.03.27
  你好我也遇到了这个问题请问是怎么解决的呢