31、非洲命名实体的命名实体消歧研究

非洲命名实体的命名实体消歧研究

1. 实体选择模块

实体选择模块采用交叉编码器(cross - encoder),将候选列表中的实体与提及(mention)进行比较。交叉编码器以两段文本作为输入,判断它们的相似程度。该交叉编码器基于SBERT和语言模型XLM - R实现。由于交叉编码器无法预先计算嵌入,其速度比双编码器(bi - encoder)慢。因此,交叉编码器仅用于实体选择,因为此步骤所需的比较次数较少,只需将每个提及与候选列表中的实体进行比较。

提及文本会被标记为知识库中与其相似度最高的实体的ID。对于不在知识库中的实体,系统采用基于阈值的方法处理:若提及与最相似实体的相似度低于0.03,则创建一个新实体并添加到知识库中,该阈值是根据交叉编码器的训练结果选定的。

2. 训练过程

自动命名实体消歧(Automatic NED)系统采用10折交叉验证进行评估。为确保评估模型的测试数据未被系统的任何部分预先见过,自动系统的每个模块在每一折中都单独训练。超参数根据每个模块的训练目标在所有折中分别调整,虽然评估集可能对模块开发有一定影响,但这种影响可忽略不计。

双编码器和交叉编码器使用三元组进行训练,三元组包含两个上下文中的提及以及一个指示它们是否指同一人的整数。若两个提及 - 上下文对指同一人,三元组为正;否则为负。三元组通过从知识库中均匀随机选择实体创建。对于每个生成的正三元组,有0.4的概率创建一个硬负三元组,且硬负三元组在三元组的第一个或第二个提及上创建的概率相等。硬负示例通过查找指其他实体但表面形式相似的提及生成,引入硬负示例可防止模型仅依赖实体名称和提及的相似度。

3. 结果评估
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值