基于RDF知识库的实体搜索分区索引
在RDF知识库的实体搜索中,Schema-first Entity Search(SFES)算法能够快速识别少量虚拟表,将昂贵的实体搜索计算集中在更可能与查询相关的实体上。然而,该算法的性能高度依赖于实体在虚拟表之间的分配方式。
高效有效的实体分区
为实现高效的Schema-first实体搜索,有两个重要因素:
- 对于给定查询,应只有少量虚拟表是模式有效的,因为要对每个模式有效表进行关系查询处理。
- 对于每个模式有效表,其大部分实体也应对查询模式有效,否则模式无效实体在加载表的某些谓词索引时会产生额外的I/O操作。
表R的模式是其包含实体模式的超集。极端情况下,若知识库中所有实体都由一个表R维护,这是宽表解决方案,每个实体在大多数谓词上为空值,但该宽表对任何查询都模式有效;另一种极端情况,若只有相同模式的实体共享一个表R,表中实体在该表的所有谓词上都有值,但会生成大量表。
合理的实体分配方案应介于这两种极端情况之间。每个表包含多个模式相似的实体,这样既能在修剪模式无效表时修剪更多实体,又能使模式有效表中的实体更可能也是模式有效的。但这两个目标相互矛盾,表包含的实体越多,表的模式大小就越大,因此需要精心设计实体聚类方案以平衡这两个目标。
实体聚类
在现有的RDF知识库中,许多相似类型的实体具有非常相似的模式,如从IMDB提取的电影实体、从DBLP提取的论文实体。基于此观察,我们通过将模式相似的实体聚类在一起来从知识库中提取表。对于那些模式异常的实体,将其放在一个单独的虚拟表$\overline{R}$(融合表)中维护。
RDF知识库实体搜索分区索引
超级会员免费看
订阅专栏 解锁全文
822

被折叠的 条评论
为什么被折叠?



