85、并行高效用项集挖掘：算法设计与性能评估-优快云博客

本文链接：https://blog.youkuaiyun.com/b0c1d2/article/details/151001498

并行高效用项集挖掘：算法设计与性能评估

1. 问题定义

高效用项集挖掘（HUIM）旨在从交易数据库中发现所有具有高效用（高利润）的项集。以下是相关概念的详细解释：
- 项集与交易数据库 ：假设有一个零售商店，存在一组不同的商品项 $I = {i_1, i_2, …, i_n}$，交易数据库 $D$ 由一系列顾客交易组成，即 $D = {T_1, T_2, …, T_m}$。每个交易 $T_j$ 是顾客购买的商品项集合，且有唯一标识符 $j$。对于交易 $T_i$ 中的每个商品项 $i$，有对应的购买数量 $q(i, T)$（正整数），同时每个商品项 $i$ 在数据库 $D$ 中有单位利润值 $p(i)$（正整数）。
- 项集效用计算 ：项集 $X$ 是 $I$ 的子集，即 $X ⊆ I$。设 $g(X)$ 为包含项集 $X$ 的交易集合，即 $g(X) = {T_j|X ⊆ T_j ∈ D}$。项集 $X$ 在交易 $T_j$ 中的效用定义为 $u(X, T_j) = \sum_{i∈X} p(i) × q(i, T_j)$，在数据库 $D$ 中的效用为 $u(X) = \sum_{T_j∈g(X)} u(X, T_j)$，数据库 $D$ 的效用为 $u(D) = \sum_{T_j∈D} u(T_j, T_j)$。
- 高效用项集判定 ：相对效用 $r(X, D)$ 是项集 $X$ 在数据库 $D$ 中的效用除以数据库的效用，即 $r(X, D) = u(X)/u(D)$。高效用项集是指相对效用不低于用户定义的最小效用阈值（minUtil）的项集。

下面通