文章目录
简要信息
| 序号 | 属性 | 值 |
|---|---|---|
| 1 | 模型名称 | OpenEA |
| 2 | 所属领域 | 知识图谱实体对齐 |
| 3 | 研究内容 | 基于嵌入的知识表示 |
| 4 | 核心内容 | 嵌入模型 |
| 5 | GitHub源码 | OpenEA |
| 6 | 论文PDF | a benchmarking study of embdedding-based entity alignment for knowledge graphs |
| 7 | 发表年份 | 2020 |
重点内容概括
1 介绍
实体对齐主要的挑战:独立创造的KGs之间的符号,语言和图式异质性
实体对齐框架:嵌入模块,对齐模块,交互模块,迭代技术
创新点:每个模块主流技术选择,各个模型的特点
提出基准数据集,新的采样算法
开源代码库
嵌入技术探讨
2.1 文献概述
嵌入模型:平移模型,语义匹配模型,深度模型,以上三种一般用于链路预测,也称补全
传统实体对齐:基于OWL等价推理,基于相似性计算,使用统计机器学习,众包提高准确性
嵌入实体对齐:平移模型【基于关系三元组进行实体对齐】,图卷积网络
2.2 分类技术
嵌入模块:关系嵌入和属性嵌入【基于三元组嵌入,基于路径嵌入,基于邻域嵌入,属性相关性嵌入】
对齐模块:两个关键问题–选择距离度量【余弦距离,欧几里得距离,曼哈顿距离】,设计推断策略【贪婪策略】
交互模块:组合模式,四种典型设计【变换矩阵,空间校准,参数共享,参数交换】,学习策略【监督学习,半监督学习(自举训练,协同训练)】
3.1 基于度的迭代抽样(IDS)
使24个KGs有相似的聚类系数,具有良好综合性能,可以扩展到大KGs
3.2 语言间连接
owl:sameAs【IDS生成数据集,删除低度实体后执行IDS】,删除标签
3.3 数据集评估
在图采样算法基础上设计2种基准线算法:随机对齐抽样RAS【不能保留连通性和度分布,聚类系数低使得嵌入模块难处理实体】,基于PageRank的抽样PRS【更关注高度的实体,性能大于RAS】
4 开源库
松耦合:嵌入模块与对齐模块相互独立,各模块内可自由调用和组合不同技术来开发新方法
重现了12种基于嵌入的实体对齐方法
整合了9个未用于实体对齐的嵌入模型【三个平移模型,三个语义匹配模型,两个深度模型】
整合了2个嵌入模型【基于预训练的多语言单词嵌入】
基于嵌入的知识图实体对齐的基准研究
摘要
实体对齐旨在在引用相同现实世界对象的不同知识图(KGs)中找到实体。KG嵌入技术的最新进展推动了基于嵌入的实体对齐技术的出现,该技术对连续嵌入空间中的实体进行编码,并根据学习到的嵌入度量实体的相似性。本文对这一新兴领域进行了全面的实验研究。我们调查了23种最新的基于嵌入的实体对齐方法,并根据它们的技术和特点对它们进行了分类。我们还提出了一种新的KG抽样算法,通过该算法,我们生成了一组具有各种异构性和分布的专用基准数据集,用于现实的评估。我们开发了一个开源库,包括12种代表性的基于嵌入的实体对齐方法,并广泛地评估这些方法,以了解它们的优势和局限性。此外,对于目前方法尚未探索的几个方向,我们进行了探索性实验,并为未来的研究报告了我们的初步发现。基准数据集、开源库和实验结果都可以在线访问,并将得到适当的维护。
1 介绍
知识图(KGs)以(主体实体、关系、对象实体)或(主体实体、属性、文字值)的形式将事实存储为三元组。这种类型的知识库支持多种应用,例如语义搜索、问题回答和推荐系统[18]。为了促进知识融合,研究人员在实体对齐(通常称为实体匹配或实体分解)方面取得了长足的进展。目标是识别来自不同KGs的实体,它们指向同一个实体,例如DBpedia[40]中的Mount Everest和Wikidata中的Q513[79]。这项任务的传统方法利用了实体的广泛的鉴别特征,例如名称、描述性注释和关系结构[15,31,32,39,70]。主要的挑战在于独立创造的KGs之间的符号、语言和图式异质性。
基于嵌入的实体对齐出现在[10]中,近年来得到了很大的发展[8,9,24,28,57,72,73,77,81,83,93]。该方法基于KG嵌入技术,将KG的符号表示嵌入为低维向量,这样实体的语义关联被嵌入空间[5]的几何结构捕获。前提是这样的嵌入可以潜在地缓解前面提到的异质性并简化知识推理[80]。

图1描述了基

最低0.47元/天 解锁文章

2170

被折叠的 条评论
为什么被折叠?



