17、挖掘有趣模式的技术与方法

挖掘有趣模式的技术与方法

1. 动态排名技术

动态排名的典型目标是找到一种排名,使得排名中的前 k 个模式能以 k 个模式为依据,对数据做出最佳解释。为实现这一目标,我们事后构建了一个评分机制,即评估将一个候选模式纳入背景知识后能获得多少信息。

具体操作如下:
- 给定一组项集 F 和每个项集 X∈F 的目标频率 θX 作为背景知识,构建最大熵模型 p∗,使得对于每个 X∈F,有 E[SX] = θX。
- 利用似然 p∗(D | F) 来评估 F 的质量,p∗ 对所有频率的预测越准确,根据 p∗ 数据出现的可能性就越大,F 这组项集就越好。更确切地说,p∗(D | F ∪{Y}) ≥ p∗(D | F),当 Y 的观测频率恰好等于从 F 推导得出的期望值时,等式成立。而且,Y 的观测频率与期望值的差距越大,得分越高。

基于这个似然得分,我们可以评估模式 Y 在已有背景知识的基础上对数据的信息量。那么,如何高效地找到好的排名和模式集呢?有以下两种方法:
- Wang 和 Parthasararthy 的方法 :将预先挖掘的频繁项集作为候选集,按层级分批处理。先考虑大小为 1 的项集,再考虑大小为 2 的项集,依此类推。每一批中,选择预测频率(L1 距离)偏离给定阈值的所有项集,将它们添加到背景知识中,然后更新模型并进入下一层级。为使排名可行,作者采用采样频率而非精确推断频率的方式,以绕过从最大熵模型推断频率的 NP 难题。
- Mampaey 等人的方法 :迭代挖掘最具信息量的模式,不考虑其基数。为高效实现这一目标,他们提出了一个高效的凸边界,可修剪许多候选模式,还

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值