文章简介
- 文章标题:
Similarity Search in Graph Databases: A Multi-layered Indexing Approach - 文章链接
- 作者单位:
佛罗里达州立大学计算机科学系
梁永江
赵培祥
文章正文
引文**2013 A Partition-Based Approach to Structure Similarity Search**通过将比较图划分为阈值+1个不重叠的分区,然后通过合并每个分区,构建倒排索引。在索引中,每个分区后面都包含了包含这个分区的数据图。查找的思路是通过这个倒排索引,先检查分区是否和查询图子图同构,如果子图同构了,再去检查分区后面的数据图,是否和查询图是规模和标签个上的规模是符合条件的,如果符合条件,则加入候选集。之后验证候选集。
参考文献6 Recent Advances in Graph Partitioning介绍了分区方法
如上是文章初始的思路,但是在时间代价上面,后来的候选集的验证花费的时间最多,之后提出了优化方法,自己没有看。
文章总结
1.解决问题
是对文献【34】的一层索引的优化。因为一层索引不能保证更加紧密地过滤候选图,所以提出了多层索引的方法。同时分析了在基于分区方法的过程中,使用随机分区的方法,不能高效地过滤候选图,所以在这方面做了优化。
2.使用方法
基于分区方法的拓展。主要表现在:索引的层数增多,将原来的一层索引,增加为多层索引,每一层索引都采用了高选择性值的分区方法,但是每一层分区的个数是自己设定的,为r+k个分区,如果一个图中至少有k个分区和查询图有包含关系,那么这个图是相似图。其中r是阈值,k是自己设定的参数。每一层的k都不一样。
3.文章不足
直观感觉,在构建索引的时候,非常繁琐,需要大量的存储空间。