仓库数据模式生成算法解析
1. 模式修剪比率分析
1.1 修剪比率公式与非重叠情况
修剪比率的计算公式为:$\frac{|T_1| + |T_2| + \cdots + |T_r|}{|T|}$ ,其中只有当网页元组 $T_1, T_2, \cdots, T_r$ 不重叠时,即对于所有 $0 < i, j \leq r$ ,$T_i \cap T_j = \varnothing$ ,分子才等于 $|T|$ 。
例如,在某些简单网页模式中,各模式的修剪比率如下:
| 模式 | 修剪比率 |
| ---- | ---- |
| $R_a$ | 0 |
| $R_b$ | 0 |
| $R_c$ | 0 |
| $R_d$ | 0.28 |
| $R_e$ | 0 |
| $R_f$ | 1/7 = 0.14 |
| $R_g$ | 4/7 = 0.58 |
由于模式 $S_d, S_f, S_g$ 所绑定的网页元组不重叠,所以 $R_a + R_b + \cdots + R_g = 1$ 。这表明当一组简单网页模式绑定一组不重叠的网页元组时,它们的修剪比率之和总是等于 1。
1.2 重叠情况分析
当这些网页模式绑定的一个或多个网页元组重叠时,即一个网页元组 $t \in T$ 可能被一个或多个网页模式绑定,此时 $|T_1| + |T_2| + \cdots + |T_r| > |T|$ ,根据上述公式,修剪比率之和总是大于 1,即 $R_1 + R_2 + \cdots + R_r > 1$ 。
超级会员免费看
订阅专栏 解锁全文
883

被折叠的 条评论
为什么被折叠?



