基于信息增益上界的剪枝策略与关联规则分类算法
1. 基于信息增益上界的剪枝策略
1.1 算法概述
在处理图结构数据以寻找有区分性的子图时,提出了基于信息增益上界的两种剪枝策略,用于 Cl - GBI 算法。该算法的输入包括图数据库 $G$、束宽 $b$、最大层数 $L$、用于对伪分块对进行排序的准则 $C$、生成子图必须满足的必要条件 $\theta$ 以及信息增益上界的阈值 $\tau$,输出为一组典型子图 $S$。
1.2 具体步骤
- 提取节点对 :提取图数据库 $G$ 中所有由两个相连节点组成的对,并使用节点 ID 集记录它们的位置。从第二层开始,提取至少有一个节点是新伪节点的相连节点对。
- 剪枝操作
- 预剪枝 :对于每个提取的节点对 $g$,计算 $\hat{u}(g, G)$,如果 $\hat{u}(g, G) < \tau$,则丢弃该节点对。
- 频率检查与信息增益计算 :对于剩余的节点对,统计其频率,若不满足必要条件 $\theta$ 则丢弃。计算其信息增益,若信息增益大于 $\tau$,则更新 $\tau$。
- 后剪枝 :对于剩余的节点对 $g$,计算 $u(g, G)$,如果 $u(g, G) < \tau$,则丢弃该节点对。
- 选择最佳节点对