Efficient Graph Similarity Joins with Edit Distance Constraints 基于路径的q-gram

本文研究了具有编辑距离约束的图相似性查询,提出一种基于路径的q-gram索引特征算法,通过匹配和不匹配特征及程度信息,有效处理图相似性查询,实验证明算法优于现有方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

文章简介:

  1. 文章标题:Efficient Graph Similarity Joins with Edit Distance Constraints
  2. ppt链接
  3. 文章链接
  4. 作者单位:新南威尔士大学,悉尼,澳大利亚
  5. 文章来源:ICDE 2012

正文

文章摘要:

在生物信息学,化学,社交网络,模式识别等许多应用中,图形被广泛用于建模复杂的数据语义。最近的趋势是容忍各种来源(例如错误的数据输入)产生的噪声并找到相似性匹配项。
在本文中,我们研究具有编辑距离约束的图相似性查询。
受q-gram思想解决字符串相似性问题的启发,我们的解决方案从图提取路径作为索引特征。 我们确定通用特征的下限以生成候选对象。 提出了一种有效的算法,通过利用匹配和不匹配特征以及程度信息来处理三种类型的图相似性查询,以改善对候选者的过滤和验证。
我们通过对真实和合成数据集进行广泛的实验,证明了所提出的算法明显优于现有方法。
两个定理:
1.如果GED(q,g)≤r,那么他们共同的基于路径的q-gram个数满足下界:
在这里插入图片描述
2.前缀过滤
如果两个图的q-grams集合为Q(g) Q(q)公共q-gram至少为 α \alpha α ,那么在各自的前缀q-gram |Q(g)- α \alpha α +1|-prefix和 |Q(q)- α \alpha α +1|中,至少有一个相同。

以前方法的不足

k-at树:
star:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
过滤下界:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

文章句法:

The algorithm takes as input a collection of graphs, and follows an index nested loop join style, maintaining an in-memory inverted index on-the-fly.
该算法将图形集合作为输入,并遵循索引嵌套循环联接样式,从而即时维护内存中的反向索引。

基于路径的q-gram和基于树的q_gram(又叫做k-AT)的不同之处在于,K-AT树是通过一个顶点的深度优先的层数而定的,基于路径的q-gram是根据图中的俩个点之间的路径定的。一个编辑距离的操作对于基于路径的q-gram的影响较小,因为只会影响其中部分的g-gram,但是对于K-AT树,会影响全部的g-gram。比如修改图中的碳元素C1的值,K-AT树的全部分支都会被影响,但是在基于路径的q-gram中,碳元素2和3不会被影响,因为它们在和碳元素1分开的q-gram中。这种优点会保持图的结构信息。

问题:

  1. 怎样通过定理1和2计算出每个图g的前缀长度 r r r * D p a t h _{path} path(g)+1?
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值