命名实体识别理论与代码

最新推荐文章于 2023-02-21 19:12:30 发布

饥渴的小苹果

最新推荐文章于 2023-02-21 19:12:30 发布

阅读量936

点赞数

CC 4.0 BY-SA版权

分类专栏：自然语言处理

本文链接：https://blog.youkuaiyun.com/qq_17677907/article/details/88093530

本文介绍了命名实体识别（NER）的基本概念、应用和分类，重点探讨了机器学习方法中的CRF模型和深度学习方法，特别是BiLSTM-CRF模型的工作原理。BiLSTM-CRF结合LSTM的长距离依赖处理能力和CRF的全局优化，已成为NER领域的主流模型。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

命名实体识别简介

NER是自然语言处理中的一项基础任务，应用范围非常广泛。

命名实体一般指的是文本中具有特定意义或者指代性强的实体，通常包括人名、地名、组织机构名、日期时间、专有名词等。

NER系统就是从非结构化的输入文本中抽取出上述实体，并且可以按照业务需求识别出更多类别的实体，比如产品名称、型号、价格等。因此实体这个概念可以很广，只要是业务需要的特殊文本片段都可以称为实体。
学术上NER所涉及的命名实体一般包括3大类（实体类，时间类，数字类）和7小类（人名、地名、组织机构名、时间、日期、货币、百分比）。

实际应用中，NER模型通常只要识别出人名、地名、组织机构名、日期时间即可，一些系统还会给出专有名词结果（比如缩写、会议名、产品名等）。货币、百分比等数字类实体可通过正则搞定。另外，在一些应用场景下会给出特定领域内的实体，如书名、歌曲名、期刊名等。

NER是NLP中一项基础性关键任务。从自然语言处理的流程来看，NER可以看作词法分析中未登录词识别的一种，是未登录词中数量最多、识别难度最大、对分词效果影响最大问题。同时NER也是关系抽取、事件抽取、知识图谱、机器翻译、问答系统等诸多NLP任务的基础。

NER当前并不算是一个大热的研究课题，因为学术界部分学者认为这是一个已经解决的问题。当然也有学者认为这个问题还没有得到很好地解决，原因主要有：命名实体识别只是在有限的文本类型（主要是新闻语料中）和实体类别（主要是人名、地名、组织机构名）中取得了不错的效果；与其他信息检索领域相比，实体命名评测预料较小，容易产生过拟合；命名实体识别更侧重高召回率，但在信息检索领域，高准确率更重要；通用的识别多种类型的命名实体的系统性能很差。