非洲命名实体的命名实体消歧研究
1. 实体选择模块
实体选择模块采用交叉编码器(cross - encoder),将候选列表中的实体与提及(mention)进行比较。交叉编码器以两段文本作为输入,判断它们的相似程度。该交叉编码器基于SBERT和语言模型XLM - R实现。由于交叉编码器无法预先计算嵌入,其速度比双编码器(bi - encoder)慢。因此,交叉编码器仅用于实体选择,因为此步骤所需的比较次数较少,只需将每个提及与候选列表中的实体进行比较。
提及文本会被标记为知识库中与其相似度最高的实体的ID。对于不在知识库中的实体,系统采用基于阈值的方法处理:若提及与最相似实体的相似度低于0.03,则创建一个新实体并添加到知识库中,该阈值是根据交叉编码器的训练结果选定的。
2. 训练过程
自动命名实体消歧(Automatic NED)系统采用10折交叉验证进行评估。为确保评估模型的测试数据未被系统的任何部分预先见过,自动系统的每个模块在每一折中都单独训练。超参数根据每个模块的训练目标在所有折中分别调整,虽然评估集可能对模块开发有一定影响,但这种影响可忽略不计。
双编码器和交叉编码器使用三元组进行训练,三元组包含两个上下文中的提及以及一个指示它们是否指同一人的整数。若两个提及 - 上下文对指同一人,三元组为正;否则为负。三元组通过从知识库中均匀随机选择实体创建。对于每个生成的正三元组,有0.4的概率创建一个硬负三元组,且硬负三元组在三元组的第一个或第二个提及上创建的概率相等。硬负示例通过查找指其他实体但表面形式相似的提及生成,引入硬负示例可防止模型仅依赖实体名称和提及的相似度。
超级会员免费看
订阅专栏 解锁全文
24

被折叠的 条评论
为什么被折叠?



