14、模式挖掘中的有趣性度量：绝对度量方法解析

最新推荐文章于 2025-11-02 16:22:52 发布

深海孤鲸134

最新推荐文章于 2025-11-02 16:22:52 发布

阅读量4

点赞数

CC 4.0 BY-SA版权

分类专栏：挖掘数据背后的模式文章标签：模式挖掘有趣性度量频繁项集

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/grafana6viz/article/details/154889677

挖掘数据背后的模式专栏收录该内容

59 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

模式挖掘中的有趣性度量：绝对度量方法解析

1. 引言

模式挖掘是数据挖掘中至关重要的概念。与传统的数据建模任务不同，传统建模旨在用一个模型描述所有数据，而模式仅描述数据的一部分。模式挖掘的目标是发现那些真正有趣的模式，这就引出了核心问题——有趣性度量，即如何判断一个给定模式是否有趣，以及如何从给定数据集中高效地挖掘有趣模式。

有趣性本质上是主观的，不同分析师对同一数据、不同数据库以及不同数据挖掘任务的有趣性判断可能不同。因此，不存在一种通用的有趣性度量能满足所有需求，需要为特定任务定义有趣性度量。此外，搜索空间呈指数级增长，简单地逐个评估模式并报告符合标准的模式是不可行的。理想的有趣性度量应能定义一个结构化且易于遍历的搜索空间。

1994 年，Agrawal 和 Srikant 以及 Mannila、Toivonen 和 Verkamo 独立发现频率度量具有反单调性，即 A Priori 原则。这一发现使得从大型数据库中挖掘频繁模式成为可能，后续也出现了许多高效算法。然而，人们很快发现频率并非理想的有趣性度量，会导致“模式爆炸”问题。

2. 绝对度量

绝对度量是仅使用手头数据对模式进行评分，不通过统计测试将数据计算结果与任何期望进行对比的度量方法。这里主要考虑理论挖掘这一模式挖掘问题，任务是找到数据库中所有有趣的子集。

2.1 频繁项集

频繁集挖掘是理论挖掘中最著名的实例，以超市购物篮分析为例，数据库由交易记录组成，每个交易记录是商品集合的子集，模式语言由项集组成。项集的支持计数是包含该项集的交易记录数，相对支持度是支持计数与数据库记录总数的比值。“有趣性”谓词是项集支持度的阈值，即最小支持度（minsup）

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。