图模式挖掘技术全解析
1. ORIGAMI算法处理重复模式
在图模式挖掘中,随机游走过程中会出现重复模式。ORIGAMI算法在处理这些重复模式时,会在遍历随机游走链时,将中间模式的签名存储在有界大小的哈希表中。当生成中间或最大子图时,其签名会被添加到哈希表中,并更新碰撞率。若碰撞率超过阈值 $\epsilon$,有两种处理方式:
1. 停止当前路径的进一步扩展,随机选择另一条路径。
2. 触发不同游走的终止条件,因为这意味着正在重新访问搜索空间的同一部分。
2. 正交代表集生成
给定一组最大子图 $\hat{M}$,下一步是从中提取 $\alpha$-正交 $\beta$-代表集。可以构建一个元图 $\Gamma(\hat{M})$ 来衡量 $\hat{M}$ 中图形模式之间的相似性,其中每个节点代表一个最大子图模式,若两个节点的相似性受 $\alpha$ 限制,则它们之间存在一条边。寻找 $\alpha$-正交模式集的问题可以建模为在相似性图 $\Gamma(\hat{M})$ 中寻找最大团。
对于给定的 $\alpha$,可能存在多个 $\alpha$-正交模式集作为可行解。可以使用残差集的大小来衡量 $\alpha$-正交集的优劣。最优的 $\alpha$-正交 $\beta$-代表集是使残差集大小最小的集合。由于该问题是NP难的,ORIGAMI采用近似算法来保证局部最优性。算法从相似性图 $\Gamma(\hat{M})$ 中的一个随机最大团开始,并尝试改进它。在每次状态转换时,选择当前最大团的一个局部邻域最大团。如果新状态有更好的解,则接受新状态作为当前状态并继续处理。当当前状态的所有邻域的残差大小相等或更大时,过程终止。两个
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



