42、图模式挖掘技术全解析-优快云博客

本文链接：https://blog.youkuaiyun.com/grafana6viz/article/details/154889834

图模式挖掘技术全解析

1. ORIGAMI算法处理重复模式

在图模式挖掘中，随机游走过程中会出现重复模式。ORIGAMI算法在处理这些重复模式时，会在遍历随机游走链时，将中间模式的签名存储在有界大小的哈希表中。当生成中间或最大子图时，其签名会被添加到哈希表中，并更新碰撞率。若碰撞率超过阈值 $\epsilon$，有两种处理方式：
1. 停止当前路径的进一步扩展，随机选择另一条路径。
2. 触发不同游走的终止条件，因为这意味着正在重新访问搜索空间的同一部分。

2. 正交代表集生成

给定一组最大子图 $\hat{M}$，下一步是从中提取 $\alpha$-正交 $\beta$-代表集。可以构建一个元图 $\Gamma(\hat{M})$ 来衡量 $\hat{M}$ 中图形模式之间的相似性，其中每个节点代表一个最大子图模式，若两个节点的相似性受 $\alpha$ 限制，则它们之间存在一条边。寻找 $\alpha$-正交模式集的问题可以建模为在相似性图 $\Gamma(\hat{M})$ 中寻找最大团。

对于给定的 $\alpha$，可能存在多个 $\alpha$-正交模式集作为可行解。可以使用残差集的大小来衡量 $\alpha$-正交集的优劣。最优的 $\alpha$-正交 $\beta$-代表集是使残差集大小最小的集合。由于该问题是NP难的，ORIGAMI采用近似算法来保证局部最优性。算法从相似性图 $\Gamma(\hat{M})$ 中的一个随机最大团开始，并尝试改进它。在每次状态转换时，选择当前最大团的一个局部邻域最大团。如果新状态有更好的解，则接受新状态作为当前状态并继续处理。当当前状态的所有邻域的残差大小相等或更大时，过程终止。两个