16、有趣模式挖掘:从静态到动态的探索

有趣模式挖掘:从静态到动态的探索

1. 超越独立性模型

独立性模型具有计算简便、结果直观且易于解释等优点,但它过于简化,假设所有项目出现相互独立是不现实的。在实际应用中,我们需要考虑已知的交互关系作为背景知识。

1.1 分区模型

为了挖掘有趣的关联,Webb提出了6条原则来识别不太可能有趣的项目集。分区模型是独立性模型的自然扩展。对于给定的项目集X,将其划分为P = {P1, …, PM},满足各部分并集为X且两两交集为空。在该模型下,项目集的支持度预期等于各部分频率的乘积。
- 分区选择 :可以构建全局模型(选择I的固定分区)或局部模型(分区取决于项目集X)。例如,找到最符合观测频率的大小为2的分区。
- 比较方法 :当分区只有2个块时,可使用Fisher精确检验。Hamalainen给出了实用的边界,可修剪大部分搜索空间。

1.2 贝叶斯网络

贝叶斯网络是独立性模型的另一种扩展,通过有向无环图表示项目之间的依赖关系。虽然从全局贝叶斯网络计算预期支持度是NP难问题,但可利用网络结构优势。批量对项目集排序可共享计算以加速。
分区模型在可计算性和允许Fisher检验方面是实用选择,但相比独立性模型,其融入的知识有限。贝叶斯网络功能强大,但难以从数据中推断,且不易解读,可能会修剪掉潜在有趣的项目集。

2. 最大熵模型

对于数据的任何已知知识,可能有无限多种分布可供选择进行测试。Jaynes提出的最大熵原则指出,最佳分布应既符合背景知识,又尽可能随机,能充分利用已知信息且不做额外假设。 </

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值