图数据库聚合搜索与 SQL 表键发现技术研究
图数据库聚合搜索性能评估
在图数据库的研究中,对相关技术的有效性和效率进行评估至关重要。本次实验使用合成数据集,通过自定义的图生成模块生成大量图。该模块可指定图的数量(n)、不同顶点标签的数量(Lv)、不同边标签的数量(Le)、每个图的平均边数(|E|)和每个图的平均顶点数(|V |)。
实验生成了一组具有不同数量不同顶点标签的图数据集。数据图的平均顶点数和边数分别为 20 和 30,不同边标签的数量为 20,而不同顶点标签的数量从 5 到 20 变化。实验中包含 1000 个数据图和 100 个查询,查询与数据图具有相同数量的不同顶点标签和不同边标签,每个查询的平均顶点数和平均边数分别为 10 和 15。
虽然在查询处理步骤之前过滤尽可能多的负图候选是个好选择,但本次实验仅关注查询处理的性能测试,因为这是该方法的核心。也就是说,实验的执行时间不包括过滤阶段,该阶段与输入数据图方面的方法无关。
使用关系数据库存储和查询图数据库的想法是利用其强大的可扩展性和效率特性。本次实验研究了基于 SQL 的聚合搜索方法的查询性能。由于合成数据集的参数是可调整的,特别是不同顶点标签的数量,该方法的整体性能不太稳定。不同顶点标签的数量对该技术的能力和可扩展性有很大影响。
为了评估聚合搜索的结果,将该方法与传统的子图同构查询方法(这里表示为 Simple QP)进行比较,记录了 Simple QP 的平均输出大小。实验对 100 个查询进行了测试,不同顶点标签的数量从 20 到 5 变化。两种方法的执行结果总结在图 8 中,并在图 9 中以散点图展示。X 轴表示不同顶点标签的数量,Y 轴表示平均答案集大小,不同的曲线代表
超级会员免费看
订阅专栏 解锁全文

1104

被折叠的 条评论
为什么被折叠?



