知识图谱嵌入中的负采样策略:MDNCaching方法解析
1. 引言
知识图谱(Knowledge Graph, KG)是事实和文本数据的结构化表示,以(头实体,关系,尾实体)的三元组形式呈现,例如(莎士比亚,是作者,《哈姆雷特》)。它通常基于Freebase、DBpedia、WordNet和YAGO等知识库构建,在问答系统、推荐系统和信息检索等众多实际应用中发挥着重要作用。
然而,尽管知识库包含大量事实,但由于知识图谱是基于现有事实或动态变化的真实情况构建的,因此往往存在不完整性。例如,在Freebase和DBpedia中,分别有71%和66%的人物出生地信息缺失。所以,自动补全知识图谱,添加缺失的知识或事实是非常有必要的。
近年来的研究表明,机器学习(Machine Learning, ML)方法可以有效地用于补全知识图谱。但由于高维性等多种因素,应用ML方法仍然是一项具有挑战性的任务。为此,知识图谱嵌入(Knowledge Graph Embedding, KGE)方法应运而生。KGE将实体和关系映射到低维向量空间,同时保留其语义信息,克服了处理知识图谱中文本数据时的稀疏性和计算成本问题。现代KGE策略在链接预测、三元组分类和知识图谱补全等知识获取任务中显示出了良好的效果。
通常,KGE模型通过将观察到的实例(正例)排名高于未观察到的实例(负例)来加速ML算法的训练。但知识库中通常只包含正例,因此需要探索生成高质量负例的策略。高质量负例与正例具有高度相似性,但实际上是负例,例如对于正例(莎士比亚,是作者,《哈姆雷特》),生成的负例(莎士比亚,是作者,《寡妇的眼泪》)比(莎士比亚,是作者,伦敦)更难与正例区分,属于高质量负例。生成高质量负例可以增强知识图谱
超级会员免费看
订阅专栏 解锁全文
2755

被折叠的 条评论
为什么被折叠?



