实体消岐

实体消岐在非结构化文档中至关重要,解决名称多形态和同名问题。Reference Disambiguation通过聚类解决同名实体的不同表达形式,无监督方法利用特征相似性,有监督方法使用分类器。Name Disambiguation关注同一名称对应多个实体的情况,依赖上下文信息进行区分。图的消歧算法是有效手段之一,通过构建合作者关系图并计算相似度实现聚类。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

NER:Named Entity Recognition
NED:Named Entity Disambiguation
wikipedia词条“Entity Linking”指出“NED is different from NER in that NER identifies the occurrence or mention of a named entity in text but it does not identify which specific entity it is.”。

在非结构化文档中,由于书写风格和上下文的需要,同一个命名实体实体可能包含多种形式的表达,同时文档中的一个名词可能从字面意思上对应多种命名实体。考虑实际案例:论文中作者的名称变体(Zhang San, S. Zhang, San Zhang),不同人物的相同名称(Li Wei是多个人的名字)和名字拼写(Zhang Sen)错误。 由于不可能为每个名称分配唯一的标识符,所以在许多情况下,如果人们使用名称来识别指定的命名实体,则可能会导致混淆(也称为名称模糊, Name Ambiguity)。 具体来说,该问题通常被划分为两个角度来研究。

  1. Reference Disambiguation
    主要解决一个命名实体有多种形式表达的问题,如在多篇文档中包含”Zhang San”, “S. Zhang”, “San Zhang” (这里认为它们指代同一个实体),将包含这些名称变形的划分为同一个簇,我们可以获得该命名实体更为详细的知识。
    无监督:为了实现这个目的,传统的方法往往利用文档的多种信息作为特征输入,包括:文档标题,摘要,共同作者,两个不完全相同名词之间的相似度(S. Zhang与San Zhang的编辑距离很短,较为相似)。随后,基

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值