大型数据库中关联规则挖掘的实例选择与近似估计方法
在大型数据库中挖掘关联规则时,为了在保证一定准确性的前提下提高效率,常常会采用抽样和近似估计的方法。下面将详细介绍相关的实例选择、关联规则估计以及搜索真实关联规则的方法。
1. 实例集生成
从数据库中获取随机实例集可分两步进行:
1. 生成 $n$ 个随机数,$n$ 由中心极限定理确定。
2. 根据这些随机数从数据库中选择 $n$ 个事务。
由于选择数据库元组时使用绝对随机数较困难,因此采用伪随机数来控制随机数据子集的选择。伪随机数生成有多种方法,这里选择如下公式生成:
$x_i = (ax_{i - 1} + b) \text{ MOD } m$
其中 $a$、$b$ 和 $m$ 为常数,$x_0, x_1, x_2, \cdots$ 是 $0$ 到 $m - 1$ 之间的整数序列。当 $a = 1$ 时,公式变为 $x_i = (x_{i - 1} + b) \text{ MOD } m$;当 $b = 0$ 时,公式变为 $x_i = ax_{i - 1} \text{ MOD } m$。第一个公式随机性更高,下面是生成伪随机数的算法:
Procedure 6.2 RandomNumber
begin
Input: a: integer constant, b: integer constant, m: real database size,
n: random database size, x0: first pseudo-random number;
Output:
超级会员免费看
订阅专栏 解锁全文
16

被折叠的 条评论
为什么被折叠?



