14、模式挖掘中的有趣性度量:绝对度量方法解析

模式挖掘中的有趣性度量:绝对度量方法解析

1. 引言

模式挖掘是数据挖掘中至关重要的概念。与传统的数据建模任务不同,传统建模旨在用一个模型描述所有数据,而模式仅描述数据的一部分。模式挖掘的目标是发现那些真正有趣的模式,这就引出了核心问题——有趣性度量,即如何判断一个给定模式是否有趣,以及如何从给定数据集中高效地挖掘有趣模式。

有趣性本质上是主观的,不同分析师对同一数据、不同数据库以及不同数据挖掘任务的有趣性判断可能不同。因此,不存在一种通用的有趣性度量能满足所有需求,需要为特定任务定义有趣性度量。此外,搜索空间呈指数级增长,简单地逐个评估模式并报告符合标准的模式是不可行的。理想的有趣性度量应能定义一个结构化且易于遍历的搜索空间。

1994 年,Agrawal 和 Srikant 以及 Mannila、Toivonen 和 Verkamo 独立发现频率度量具有反单调性,即 A Priori 原则。这一发现使得从大型数据库中挖掘频繁模式成为可能,后续也出现了许多高效算法。然而,人们很快发现频率并非理想的有趣性度量,会导致“模式爆炸”问题。

2. 绝对度量

绝对度量是仅使用手头数据对模式进行评分,不通过统计测试将数据计算结果与任何期望进行对比的度量方法。这里主要考虑理论挖掘这一模式挖掘问题,任务是找到数据库中所有有趣的子集。

2.1 频繁项集

频繁集挖掘是理论挖掘中最著名的实例,以超市购物篮分析为例,数据库由交易记录组成,每个交易记录是商品集合的子集,模式语言由项集组成。项集的支持计数是包含该项集的交易记录数,相对支持度是支持计数与数据库记录总数的比值。“有趣性”谓词是项集支持度的阈值,即最小支持度(minsup)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值