本体结构对实体链接的影响研究
1. 引言
传统的实体链接研究大多依赖维基百科的链接结构来计算候选实体的语义相关性,但这种方式在处理特定领域知识时存在局限性。为避免对维基百科链接结构的依赖,近年来出现了知识无关的方法。本文将探讨不同丰富本体结构对基于知识无关方法的实体链接方法的影响。
2. 相关工作
2.1 全局一致性方法
像DBpedia Spotlight、Babelfy和WAT等开放域实体链接系统的全局一致性方法近年来取得了显著成果。然而,开放域资源在建模特定领域知识库时不够精准,特定领域知识库在实体链接任务中具有重要意义,如KnowLife和LinkedMDB等,但这些知识库缺乏强大的链接结构。
2.2 依赖维基百科链接结构的方法
多数实体链接研究在实体消歧步骤主要依赖维基百科链接结构。例如,TAGME利用维基百科锚文本进行提及检测,并基于维基百科链接结构的一致性方法对短文本进行实时标注;AIDA - light考虑全局一致性来消歧实体,并利用YAGO2和维基百科领域层次结构先标注“简单标签”。
2.3 知识无关方法
近年来,不依赖维基百科链接结构的知识无关方法逐渐兴起,且可与任何知识库配合使用。AGDISTIS有独立于维基百科链接结构的方法,它使用命名实体识别工具检测网页中的提及,进行命名实体消歧,选择候选实体并生成消歧图,利用基于图的HITS算法匹配最佳提及 - 实体对。DoSeR利用给定知识库生成的语义嵌入,通过个性化PageRank算法计算实体间的语义相似度。