NLP 命名实体识别 NER

对这几天看到的相关资料进行一个简单的记录。

1、命名实体识别简介

命名实体识别任务旨在从自然语言文本中识别具有特定意义的实体,如人名、地名、组织名。在自然语言处理(Natural Language Processing,NLP)中,命名实体识别通常是自然语言理解的第一步,它的结果被用于许多后续的NLP任务。如实体链接(Entity linking)、关系抽取(Relation Extraction)和句法分析(Syntactic parsing)等。因此,命名实体识别任务的效果好坏就至关重要了。

1.1 定义

命名实体识别(Named Entity Recognition, NER) 也称为实体识别、实体分块和实体提取,是信息提取的一个子任务,旨在将文本中的命名实体定位并分类为预先定义的类别,如人员、组织、位置、时间、数量、货币值、百分比等。

命名实体一般可认为是具有特定意义或指代性强的实体,通常包括人名、地名、组织结构名、日期时间、专有名词等。NER系统就是从非结构化的输入文本中抽取出上述实体,并且可以按照业务需求识别出更多类别的实体。因此只要是业务需求的特殊文本片段都可以称为实体。

学术上,所涉及的命名实体一般包括 3大类( 实体类、 时间类、 数字类)7小类命名实体(人名、地名、组织结构名、时间、日期、货币、百分比)

NER是NLP中一项基础性关键任务,从自然语言处理的流程来看,NER可以看做词法分析中未登录词识别的一种,是未登录词中数量最多、识别难度最大、对分词效果影响最大问题。同时NER也是关系抽取、信息检索、知识图谱、机器翻译、问答系统等诸多NLP任务的基础。
信息检索:命名实体可以用来提高和改进检索系统的效果。
机器翻译:命名实体的翻译常会有一些特殊翻译规则,例如中国人民翻译成英文时要用拼音来表示,有名在前姓在后的规则。
问答系统:准确的识别出问题的各个组成部分特别重要,问题的相关领域,相关概念。

1.2 NER标注方法

对于NER任务,常见的标签体系包括IO、BIO、BMEWO、BMEWO+。下面举例说明不同标签体系的区别。

Tokens IO BIO BMEWO BMEWO+
O O O O
O O O O
O O O O_PERSON
I_PERSON B_PERSON B_PERSON B_PERSON
I_PERSON I_PERSON M_PERSON M_PERSON
I_PERSON I_PE
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值