Atitit NER实体命名识别(Name Entity Recognition
目录
1.1. a. NER实体命名识别(Name Entity Recognition) 1
2. NER抽取方法 3
2.1. 基于规则 3
2.2. 统计方法逐渐成为自然语言处理的主流 3
2.3. 条件随机场(CRF)模型用于命名实体识别。 3
2.4. 2.基于多特征的命名实体识别方法 7 5
2.5. 4.专家知识(词典法 ,人名,地名机构名 8
3. NER关联技术 9
3.1. 分词 9
3.2. 词典匹配 9
3.3. 数字和特殊字符,一般用正则的方法匹配出来 9
3.4. 先边界识别 然后进行类别判定 9
3.5. 相关知识梳理(HMM, MEMM, CRF) 9
3.6. Bootstrapping算法 利用有限的样本资料 建立目标 9
4. NER公开数据集 10
4.1. CoNLL CoNLL 2003 10
4.2. CoNLL2003中, 实体被标注为四种类型:LOC (location, 地名)ORG (organisation, 组织机构名)PER (person, 人名)MISC (miscellaneous, 其他) 10
4.3. OntoNotes 5.0 / CoNNLL 2012 18个类别 10
4.4. 其他公开数据集,包括NLPBA2014, Enron Emails 等等 11
5. NER 标注方法有很多种, 这里主要介绍3种最常见。 11
5.1. IOB 标注法 11
5.2. BIOES BIOES 是目前最通用的命名实体标注方法。 11
5.3. Makeup 是 OntoNotes 使用的标注方法, 思路比较简单, XML, 比如: 12
6. 问题 12
1.1.a. NER实体命名识别(Name Entity Recognition)
又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。
般来说,命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。
命名实体识别(Named Entity Recognition, NER)是NLP领域一个非常非常重要的方向,比如人名、地名通用性的实体识别