高效子图相似性全匹配与蛋白质 - DNA 结合核心挖掘算法
在图数据管理和生物信息学领域,有两个重要的研究方向:高效子图相似性全匹配以及蛋白质 - DNA 结合核心的挖掘。下面将分别对这两个方向的研究内容进行详细介绍。
高效子图相似性全匹配
在子图匹配问题中,为了提高匹配效率,研究人员提出了一系列方法。
1. 中间模式处理
对于内部节点 N 上从局部模式合并而来的新中间模式 N.g′,会将元组 (N.g′, MN.g′) 插入到 T (N) 中。这样,若两个模式 p 和 p′ 共享 N.g′,就能共享预计算的 MN.g′,避免冗余的合并成本。同时,由于局部模式可能不连通,中间模式 N.g′ 也可能不连通,此时会维护其各组件的精确匹配,并延迟合并,直到有“桥梁”中间模式将它们连接起来。
2. 非最小模式匹配
对于第 i 层的非最小模式 p,其第 i + 1 层的子模式 p′ 仅比 p 少一条边。根据定义,p 的任何精确匹配必然是 p′ 的精确匹配。因此,计算 Mp 时只需对 Mp′ 进行边验证。具体操作是选取 |Mp′| 最小的子模式 p′,检查 Mp′ 中的每个精确匹配 F 是否存在 p 中的额外边,若存在,则 F 也是 Mp 的精确匹配。
3. 有效查询分解
将全局模式 p 分解为一组局部模式后,Mp 的计算成本包括局部模式的搜索成本和中间模式的合并成本。局部模式 f ′ 的搜索成本可通过 E(Mf ′) + E(If ′) 评估,中间模式 g′ 的合并成本可通过 E(Mg′) 评估。为了生成统一的分解,提出了递归二分法。具体步骤如下:
1. 初始化一个空的
超级会员免费看
订阅专栏 解锁全文
1005

被折叠的 条评论
为什么被折叠?



