Similarity Search in Graph Databases: A Multi-layered Indexing Approach

原创于 2019-12-24 19:23:35 发布 · 426 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

论文阅读专栏收录该内容

30 篇文章

订阅专栏

本文介绍了一种用于图数据库的多层索引搜索方法，该方法优化了基于分区的结构相似性搜索，通过增加索引层数并采用高选择性分区策略，提高了搜索效率和精确度。

文章简介

文章标题：
Similarity Search in Graph Databases: A Multi-layered Indexing Approach
文章链接
作者单位：
佛罗里达州立大学计算机科学系
梁永江
赵培祥

文章正文

引文**2013 A Partition-Based Approach to Structure Similarity Search**通过将比较图划分为阈值+1个不重叠的分区，然后通过合并每个分区，构建倒排索引。在索引中，每个分区后面都包含了包含这个分区的数据图。查找的思路是通过这个倒排索引，先检查分区是否和查询图子图同构，如果子图同构了，再去检查分区后面的数据图，是否和查询图是规模和标签个上的规模是符合条件的，如果符合条件，则加入候选集。之后验证候选集。

在这里插入图片描述
参考文献6 Recent Advances in Graph Partitioning介绍了分区方法

如上是文章初始的思路，但是在时间代价上面，后来的候选集的验证花费的时间最多，之后提出了优化方法，自己没有看。

文章总结

1.解决问题

是对文献【34】的一层索引的优化。因为一层索引不能保证更加紧密地过滤候选图，所以提出了多层索引的方法。同时分析了在基于分区方法的过程中，使用随机分区的方法，不能高效地过滤候选图，所以在这方面做了优化。

2.使用方法

基于分区方法的拓展。主要表现在：索引的层数增多，将原来的一层索引，增加为多层索引，每一层索引都采用了高选择性值的分区方法，但是每一层分区的个数是自己设定的，为r+k个分区，如果一个图中至少有k个分区和查询图有包含关系，那么这个图是相似图。其中r是阈值，k是自己设定的参数。每一层的k都不一样。

3.文章不足

直观感觉，在构建索引的时候，非常繁琐，需要大量的存储空间。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。