14、基于词嵌入的无监督命名实体链接技术解析

基于词嵌入的无监督命名实体链接技术解析

1. 相关工作概述

在命名实体链接(NEL)领域,现有方法主要可根据其处理的具体任务进行区分:
- 候选实体生成 :目标是为每个实体提及提取一组候选资源。常见的技术有基于名称字典和基于搜索引擎的方法。基于名称字典的方法是构建一个基于字典的结构,将知识库(KB)中的一个或多个资源与给定的命名实体相关联,通过精确匹配或部分匹配来获取候选实体;基于搜索引擎的技术则利用网络搜索引擎来检索与实体提及相关的候选资源列表。
- 候选实体排序 :在提取候选实体后,需要对候选列表进行排序以找出最可能的链接。大多数方法基于机器学习算法,考虑与命名实体或KB条目的多个特征,如实体流行度、通过命名实体识别(NER)系统提取的本体类型以及命名实体周围上下文的基于向量的表示。此外,结合多个特征也有助于对候选提及进行排序。
- 不可链接提及预测 :实体提及并非总是在KB中有对应的实体,因此系统需要处理预测不可链接实体(NIL实体)的问题。一些方法使用简单启发式规则,若无法为实体提及检索到任何候选,则该实体提及不可链接;许多NEL系统基于阈值方法,若候选的置信度分数低于给定阈值,则该实体提及被视为NIL;也可使用基于监督机器学习的方法,如二元分类技术。

然而,传统的候选生成方法在处理包含大量拼写错误、缩写、昵称和其他噪声文本形式的微博帖子时容易出错。为解决这些问题,提出的NEL方法考虑了针对此类数据的特定预处理技术,并利用实体提及和KB资源的高级表示之间的相似度度量。这种有意义且密集的表示通过词嵌入(Word Embeddings)这种广泛使用的神经

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值