实现spaCy实体标注模型

最新推荐文章于 2025-09-05 16:47:55 发布

原创

最新推荐文章于 2025-09-05 16:47:55 发布 · 1.2k 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#python #机器学习 #自然语言处理

命名实体识别是指对现实世界中某个对象的名称的识别。与词性标注一样，是自然语言处理的技术基础之一。它的作用主要是通过模型识别出文本中需要的实体，也可以推导出实体之间的关系（实体消歧）。
本文介绍的是运用Python从头训练一个spaCy模型来识别中标公告中中标公司的名字，现通过爬虫爬取了大约200篇中标公告（爬取过程省略），利用人工对其中的150篇训练集公告进行标注中标公司，使用spaCy训练一个实体抽取模型并进行本地保存，再调取训练好的模型对剩余的50篇公告进行测试，检验该模型对中标公司提取的准确率。

1、获取数据和数据清洗

首先，需要对爬取下来的中标公告文件数据进行清洗处理，分别对其进行去重和删除网络格式（比如&nbsp），清洗前后对比如下：
数据清洗对比

2、标注实体

对于清洗后的数据集，需要把标注后的结果以下例格式进行储存（即文本+实体标注的索引+实体标注类别标签）：

TRAIN_DATA = [
    ('Who is Shaka Khan?', {
   
   
        'entities': [(7, 17, 'PERSON')]  
        ###实体标注的索引从0开始17是最后一字符的索引+1
    }),
    ('I like London and Berlin.', {
   
   
        'entities': [(7, 13, 'LOC'), (18, 24, 'LOC')]
    })
]

也就是说，需要找出需要被标注实体的开始索引和结束索引。由于有204篇公告，每篇公告都都需要人工标注，鉴于数据量和寻找索引工作量都很大，所以通过编写Python程序且小组分工后每位成员人工标注中标公司名称，并把结果储存成上述格式。标注代码如下：

import pandas as pd
import re

def find_company_name(name,text):
    if re.search(name,text):
        tup = list(re.search(name,text).span())
        tup.append("LOC")
        tup=tuple(tup)
        return (