NER:Named Entity Recognition
NED:Named Entity Disambiguation
wikipedia词条“Entity Linking”指出“NED is different from NER in that NER identifies the occurrence or mention of a named entity in text but it does not identify which specific entity it is.”。
在非结构化文档中,由于书写风格和上下文的需要,同一个命名实体实体可能包含多种形式的表达,同时文档中的一个名词可能从字面意思上对应多种命名实体。考虑实际案例:论文中作者的名称变体(Zhang San, S. Zhang, San Zhang),不同人物的相同名称(Li Wei是多个人的名字)和名字拼写(Zhang Sen)错误。 由于不可能为每个名称分配唯一的标识符,所以在许多情况下,如果人们使用名称来识别指定的命名实体,则可能会导致混淆(也称为名称模糊, Name Ambiguity)。 具体来说,该问题通常被划分为两个角度来研究。
Reference Disambiguation
主要解决一个命名实体有多种形式表达的问题,如在多篇文档中包含”Zhang San”, “S. Zhang”, “San Zhang” (这里认为它们指代同一个实体),将包含这些名称变形的划分为同一个簇,我们可以获得该命名实体更为详细的知识。
无监督:为了实现这个目的,传统的方法往往利用文档的多种信息作为特征输入,包括:文档标题,摘要,共同作者,两个不完全相同名词之间的相似度(S. Zhang与San Zhang的编辑距离很短,较为相似)。随后,基