并行高效用项集挖掘:算法设计与性能评估
1. 问题定义
高效用项集挖掘(HUIM)旨在从交易数据库中发现所有具有高效用(高利润)的项集。以下是相关概念的详细解释:
- 项集与交易数据库 :假设有一个零售商店,存在一组不同的商品项 $I = {i_1, i_2, …, i_n}$,交易数据库 $D$ 由一系列顾客交易组成,即 $D = {T_1, T_2, …, T_m}$。每个交易 $T_j$ 是顾客购买的商品项集合,且有唯一标识符 $j$。对于交易 $T_i$ 中的每个商品项 $i$,有对应的购买数量 $q(i, T)$(正整数),同时每个商品项 $i$ 在数据库 $D$ 中有单位利润值 $p(i)$(正整数)。
- 项集效用计算 :项集 $X$ 是 $I$ 的子集,即 $X ⊆ I$。设 $g(X)$ 为包含项集 $X$ 的交易集合,即 $g(X) = {T_j|X ⊆ T_j ∈ D}$。项集 $X$ 在交易 $T_j$ 中的效用定义为 $u(X, T_j) = \sum_{i∈X} p(i) × q(i, T_j)$,在数据库 $D$ 中的效用为 $u(X) = \sum_{T_j∈g(X)} u(X, T_j)$,数据库 $D$ 的效用为 $u(D) = \sum_{T_j∈D} u(T_j, T_j)$。
- 高效用项集判定 :相对效用 $r(X, D)$ 是项集 $X$ 在数据库 $D$ 中的效用除以数据库的效用,即 $r(X, D) = u(X)/u(D)$。高效用项集是指相对效用不低于用户定义的最小效用阈值(minUtil)的项集。
下面通
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



