命名实体识别

西瓜撞月球

于 2025-02-07 19:00:46 发布

阅读量322

点赞数 2

文章标签： python 算法

本文链接：https://blog.youkuaiyun.com/2403_87204666/article/details/145500791

版权

命名实体识别（Named Entity Recognition，简称NER）是从文本中识别出具有特定意义的实体，并将这些实体分类到预定义的类别中，如人名、地名、组织名、日期、时间、百分比等。

命名实体识别通常包括以下几个步骤：

1. 实体检测：识别文本中可能代表命名实体的片段。
2. 实体分类：将检测到的实体归类到预定义的类别中。
3. 实体解析：对于某些类别，如地名或组织名，可能还需要进一步解析实体的具体信息。

命名实体识别的应用非常广泛，包括但不限于：

信息抽取：从大量文本中提取关键信息。
问答系统：帮助系统理解问题中的关键实体，以便提供准确的答案。
机器翻译：在翻译过程中保留特定实体的正确翻译。
内容推荐：根据用户查询中的实体推荐相关内容。
知识图谱构建：识别实体并建立实体之间的关系，构建知识图谱。

命名实体识别的技术方法包括基于规则的方法、统计机器学习方法（如条件随机场CRF）、以及深度学习方法（如循环神经网络RNN、长短期记忆网络LSTM、Transformer模型等）。随着深度学习技术的发展，特别是预训练语言模型（如BERT、GPT等）的出现，命名实体识别的准确率有了显著提升。

import pandas as pd
import spacy   #命名实体识别
# •	使用 pandas 库读取文件,•	将文件中的文本数据加载到 DataFrame 对象中,•	确保 text 列中的所有文本内容都被正确加载，以便后续处理。
data = pd.read_csv('第一题数据集.csv')

# en_core_web_sm  英文预训练模型
# zh_core_web_sm  中文预训练模型


#•	使用 spaCy 库加载预训练的自然语言处理模型 en_core_web_sm。
nlp = spacy.load("en_core_web_sm")  # 加载英文的预训练模型
#•	遍历文件中的每一行文本
for sen in data["text"]:
    # •	将每段文本传递给 spaCy 模型进行处理
    doc = nlp(sen)
    # •	对于每段文本，使用 spaCy 模型提取其中的命名实体
    for token in doc:
        # •    遍历每个文本中识别出的所有实体，并判断实体的标签。
        if token.ent_type_ in ["GPE", "DATE"]:
            # •	如果实体的标签是 GPE（地理政治实体，如国家、城市等）•	或 DATE（日期），则打印出该实体的标签及其对应的文本内容。
            print(token.text)