18、频繁模式集主观有趣性量化:复杂先验信息的形式化处理

频繁模式集主观有趣性量化:复杂先验信息的形式化处理

在数据挖掘领域,确定主观有趣的模式已成为频繁项集挖掘(FIM)的一个重要子领域。传统上,发现模式的有趣性不仅与客观标准(如支持度)相关,还与用户对数据的先验知识有关。本文将探讨如何通过形式化复杂先验信息来量化频繁模式集的主观有趣性。

1. 引言

在FIM中,“惊喜性”的概念受到了广泛关注。根据这一定义,如果一个项集与用户对数据集的先验知识或期望形成显著对比,则被认为是有趣的。然而,将用户的期望形式化并将其纳入数据挖掘过程带来了新的挑战。

目前,为应对这些挑战,主要发展了两种方法:
- 随机化方法 :通过使用保留所需数据集特征的运算符(交换)创建数据库的随机版本。然后,可以使用经验假设检验通过项集的p值来量化其有趣性。该方法最初用于保留数据库的行和列总和(行 - 列边缘),后来扩展到更复杂的先验知识,如行聚类和项集频率。
- 最大熵模型(MaxEnt)方法 :基于为数据库创建明确的概率模型,该模型编码了用户的先验知识。特别是采用最大熵原理来编码用户对数据集的期望,并定义了一个信息理论度量——瓷砖的信息比率(InformationRatio)来量化有趣性。最初阶段,行和列边缘再次被用作先验知识。

随机化技术在量化有趣性方面取得了新的突破,但也存在一些缺点。例如,它们所采用的马尔可夫链蒙特卡罗(MCMC)过程计算密集,并且没有理论保证所得到的数据库样本确实是在指定先验知识下数据库均匀分布的样本。此外,该方法的范围仅限于经验假设检验,p值的使用在某些情况下可能不合适,并且经验p值的分辨率有限,无法可靠地对小p值的模式(即有

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值