高效挖掘高平均效用项集
在数据库知识发现(KDD)领域,挖掘频繁项集(FIs)或关联规则(ARs)是一项基础任务。传统的频繁项集挖掘(FIM)和关联规则挖掘(ARM)算法仅考虑二进制数据库中项的出现频率,而忽略了诸如项的数量、利润和权重等重要因素。因此,高效用项集挖掘(HUIM)在近几十年成为了一个关键问题,它能揭示现实世界中的盈利项集。
1. 引言
传统的FIM和ARM算法存在局限性,没有考虑项的数量、利润和权重等因素。而HUIM作为FIM的扩展,考虑了这些额外信息,能更好地评估项集的“有用性”。然而,传统HUIM在定义项集效用时,没有考虑项集的长度,导致其在实际应用中存在不足。为了更客观地评估项集的效用,高平均效用项集挖掘(HAUIM)任务应运而生。
2. 相关工作
2.1 高效用项集挖掘(HUIM)
HUIM基于内部效用和外部效用的测量,旨在发现效用不低于最小效用阈值的高效用项集(HUIs)。过去的研究提出了多种方法,如Yao等人基于效用度量的数学性质提出了挖掘HUIs的框架;Liu等人设计了事务加权向下闭合(TWDC)属性并开发了事务加权利用(TWU)模型;Lin等人设计了高效用模式(HUP)树算法;Tseng等人开发了UP - Growth + 算法;Liu等人开发了基于列表的HUI - Miner算法等。此外,还有一些HUIM任务的扩展,如发现最新的HUIs和前k个HUIs。
2.2 高平均效用项集挖掘(HAUIM)
传统HUIM中项集效用的定义未考虑项集长度,在实际情况中不够充分。为了更好地评估项集效用,HAUIM任务被提出,其平均效用定义为项集在出现的事务中各项效用之和除以
超级会员免费看
订阅专栏 解锁全文
19

被折叠的 条评论
为什么被折叠?



