CIKM 2017
- 论文 | Hike: A Hybrid Human-Machine Method for Entity Alignmentin Large-Scale Knowledge Bases
- 链接 | https://www.paperweekly.site/papers/1528
- 解读 | 罗丹,浙江大学硕士
1. Motivation
随着语义网络的迅速发展,越来越多的大规模知识图谱公开发布,为了综合使用多个来源的知识图谱,首要步骤就是进行实体对齐(Entity Alignment)。
近年来,许多研究者提出了自动化的实体对齐方法,但是,由于知识图谱数据的不均衡性,导致此类方法对齐质量较低,特别是召回率(Recall)。
我有几张阿里云幸运券分享给你,用券购买或者升级阿里云相应产品会有特惠惊喜哦!把想要买的产品的幸运券都领走吧!快下手,马上就要抢光了。
因此,可考虑借助于众包平台提升对齐效果,本文提出了一个人机协作的方法,对大规模知识图谱进行实体对齐。
2. Framework
方法主要流程如图所示:
首先,通过机器学习方法对知识库进行粗略的实体对齐,然后分别将以对齐实体对(Matched Pairs)和未对齐实体对(Unmatched Pairs)放入众包平台,让人进行判断。
两条流水线的步骤类似,主要包括四个部分:实体集划分(Entity Partition)、建立偏序(Partial Order Construction)、问题选择(Question Selection)、容错处理(Error Tolerance)。
实体集划分的目的是将同类的实体聚类到一个集合,实体对齐只在集合内部进行,集合之间不进行对齐操作。实体集划分的依据是属性,通常同一类实体的属性是相似的。 偏序定义如下: