模式挖掘中的有趣性度量:绝对度量方法解析
1. 引言
模式挖掘是数据挖掘中至关重要的概念。与传统的数据建模任务不同,传统建模旨在用一个模型描述所有数据,而模式仅描述数据的一部分。模式挖掘的目标是发现那些真正有趣的模式,这就引出了核心问题——有趣性度量,即如何判断一个给定模式是否有趣,以及如何从给定数据集中高效地挖掘有趣模式。
有趣性本质上是主观的,不同分析师对同一数据、不同数据库以及不同数据挖掘任务的有趣性判断可能不同。因此,不存在一种通用的有趣性度量能满足所有需求,需要为特定任务定义有趣性度量。此外,搜索空间呈指数级增长,简单地逐个评估模式并报告符合标准的模式是不可行的。理想的有趣性度量应能定义一个结构化且易于遍历的搜索空间。
1994 年,Agrawal 和 Srikant 以及 Mannila、Toivonen 和 Verkamo 独立发现频率度量具有反单调性,即 A Priori 原则。这一发现使得从大型数据库中挖掘频繁模式成为可能,后续也出现了许多高效算法。然而,人们很快发现频率并非理想的有趣性度量,会导致“模式爆炸”问题。
2. 绝对度量
绝对度量是仅使用手头数据对模式进行评分,不通过统计测试将数据计算结果与任何期望进行对比的度量方法。这里主要考虑理论挖掘这一模式挖掘问题,任务是找到数据库中所有有趣的子集。
2.1 频繁项集
频繁集挖掘是理论挖掘中最著名的实例,以超市购物篮分析为例,数据库由交易记录组成,每个交易记录是商品集合的子集,模式语言由项集组成。项集的支持计数是包含该项集的交易记录数,相对支持度是支持计数与数据库记录总数的比值。“有趣性”谓词是项集支持度的阈值,即最小支持度(minsup)
超级会员免费看
订阅专栏 解锁全文

9万+

被折叠的 条评论
为什么被折叠?



