文章目录
对这几天看到的相关资料进行一个简单的记录。
1、命名实体识别简介
命名实体识别任务旨在从自然语言文本中识别具有特定意义的实体,如人名、地名、组织名。在自然语言处理(Natural Language Processing,NLP
)中,命名实体识别通常是自然语言理解的第一步,它的结果被用于许多后续的NLP任务。如实体链接(Entity linking
)、关系抽取(Relation Extraction
)和句法分析(Syntactic parsing
)等。因此,命名实体识别任务的效果好坏就至关重要了。
1.1 定义
命名实体识别(Named Entity Recognition, NER) 也称为实体识别、实体分块和实体提取,是信息提取的一个子任务,旨在将文本中的命名实体定位并分类为预先定义的类别,如人员、组织、位置、时间、数量、货币值、百分比等。
命名实体一般可认为是具有特定意义或指代性强的实体,通常包括人名、地名、组织结构名、日期时间、专有名词等。NER系统就是从非结构化的输入文本中抽取出上述实体,并且可以按照业务需求识别出更多类别的实体。因此只要是业务需求的特殊文本片段都可以称为实体。
学术上,所涉及的命名实体一般包括 3大类( 实体类、 时间类、 数字类),7小类命名实体(人名、地名、组织结构名、时间、日期、货币、百分比)。
NER是NLP中一项基础性关键任务,从自然语言处理的流程来看,NER可以看做词法分析中未登录词识别的一种,是未登录词中数量最多、识别难度最大、对分词效果影响最大问题。同时NER也是关系抽取、信息检索、知识图谱、机器翻译、问答系统等诸多NLP任务的基础。
信息检索:命名实体可以用来提高和改进检索系统的效果。
机器翻译:命名实体的翻译常会有一些特殊翻译规则,例如中国人民翻译成英文时要用拼音来表示,有名在前姓在后的规则。
问答系统:准确的识别出问题的各个组成部分特别重要,问题的相关领域,相关概念。
1.2 NER标注方法
对于NER任务,常见的标签体系包括IO、BIO、BMEWO、BMEWO+
。下面举例说明不同标签体系的区别。
Tokens | IO | BIO | BMEWO | BMEWO+ |
---|---|---|---|---|
昨 | O | O | O | O |
天 | O | O | O | O |
, | O | O | O | O_PERSON |
李 | I_PERSON | B_PERSON | B_PERSON | B_PERSON |
晓 | I_PERSON | I_PERSON | M_PERSON | M_PERSON |
明 | I_PERSON | I_PE |