31、非洲命名实体的命名实体消歧研究

最新推荐文章于 2025-12-11 09:40:31 发布

nft7creator

最新推荐文章于 2025-12-11 09:40:31 发布

阅读量62

点赞数

CC 4.0 BY-SA版权

分类专栏： AI前沿：跨学科创新文章标签：命名实体消歧非洲命名实体 XLM-R

本文链接：https://blog.youkuaiyun.com/nft7creator/article/details/152068169

AI前沿：跨学科创新专栏收录该内容

44 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

非洲命名实体的命名实体消歧研究

1. 实体选择模块

实体选择模块采用交叉编码器（cross - encoder），将候选列表中的实体与提及（mention）进行比较。交叉编码器以两段文本作为输入，判断它们的相似程度。该交叉编码器基于SBERT和语言模型XLM - R实现。由于交叉编码器无法预先计算嵌入，其速度比双编码器（bi - encoder）慢。因此，交叉编码器仅用于实体选择，因为此步骤所需的比较次数较少，只需将每个提及与候选列表中的实体进行比较。

提及文本会被标记为知识库中与其相似度最高的实体的ID。对于不在知识库中的实体，系统采用基于阈值的方法处理：若提及与最相似实体的相似度低于0.03，则创建一个新实体并添加到知识库中，该阈值是根据交叉编码器的训练结果选定的。

2. 训练过程

自动命名实体消歧（Automatic NED）系统采用10折交叉验证进行评估。为确保评估模型的测试数据未被系统的任何部分预先见过，自动系统的每个模块在每一折中都单独训练。超参数根据每个模块的训练目标在所有折中分别调整，虽然评估集可能对模块开发有一定影响，但这种影响可忽略不计。

双编码器和交叉编码器使用三元组进行训练，三元组包含两个上下文中的提及以及一个指示它们是否指同一人的整数。若两个提及 - 上下文对指同一人，三元组为正；否则为负。三元组通过从知识库中均匀随机选择实体创建。对于每个生成的正三元组，有0.4的概率创建一个硬负三元组，且硬负三元组在三元组的第一个或第二个提及上创建的概率相等。硬负示例通过查找指其他实体但表面形式相似的提及生成，引入硬负示例可防止模型仅依赖实体名称和提及的相似度。

3. 结果评估

会员秒杀 ¥9.9 重磅福利

超级会员免费看