关联规则挖掘:小数据库与未来挑战
1. 小数据库中的关联规则合成
在小数据库中挖掘关联规则时,传统方法可能并不适用。为了解决这个问题,可以通过合成从不同数据源收集的规则来确定哪些规则在小数据库中是有价值的。
设 (D_1, D_2, \cdots, D_m) 是 (m) 个不同的数据源,(S_i) 是从 (D_i) 中得到的规则集((i = 1, 2, \cdots, m))。对于给定的规则 (X \to Y),假设 (w_1, w_2, \cdots, w_m) 分别是 (D_1, D_2, \cdots, D_m) 的权重。规则的合成定义如下:
[
\begin{align }
supp_w(X \cup Y) &= w_1 \times supp_1(X \cup Y) + w_2 \times supp_2(X \cup Y) + \cdots + w_m \times supp_m(X \cup Y)\
conf_w(X \to Y) &= w_1 \times conf_1(X \to Y) + w_2 \times conf_2(X \to Y) + \cdots + w_m \times conf_m(X \to Y)
\end{align }
]
1.1 权重分配
为了合成来自不同数据源的规则,需要为每个数据源确定一个权重。数据源的权重由其与规则之间的相互支持关系决定。具体来说,如果一个数据源支持更多高置信度的规则,那么该数据源的权重应该更高。
例如,假设有三个数据源 (D_1)、(D_2) 和 (D_3),挖掘出的规则如
小数据库中的关联规则合成与挑战
超级会员免费看
订阅专栏 解锁全文
2137

被折叠的 条评论
为什么被折叠?



