有趣模式挖掘:从静态到动态的探索
1. 超越独立性模型
独立性模型具有计算简便、结果直观且易于解释等优点,但它过于简化,假设所有项目出现相互独立是不现实的。在实际应用中,我们需要考虑已知的交互关系作为背景知识。
1.1 分区模型
为了挖掘有趣的关联,Webb提出了6条原则来识别不太可能有趣的项目集。分区模型是独立性模型的自然扩展。对于给定的项目集X,将其划分为P = {P1, …, PM},满足各部分并集为X且两两交集为空。在该模型下,项目集的支持度预期等于各部分频率的乘积。
- 分区选择 :可以构建全局模型(选择I的固定分区)或局部模型(分区取决于项目集X)。例如,找到最符合观测频率的大小为2的分区。
- 比较方法 :当分区只有2个块时,可使用Fisher精确检验。Hamalainen给出了实用的边界,可修剪大部分搜索空间。
1.2 贝叶斯网络
贝叶斯网络是独立性模型的另一种扩展,通过有向无环图表示项目之间的依赖关系。虽然从全局贝叶斯网络计算预期支持度是NP难问题,但可利用网络结构优势。批量对项目集排序可共享计算以加速。
分区模型在可计算性和允许Fisher检验方面是实用选择,但相比独立性模型,其融入的知识有限。贝叶斯网络功能强大,但难以从数据中推断,且不易解读,可能会修剪掉潜在有趣的项目集。
2. 最大熵模型
对于数据的任何已知知识,可能有无限多种分布可供选择进行测试。Jaynes提出的最大熵原则指出,最佳分布应既符合背景知识,又尽可能随机,能充分利用已知信息且不做额外假设。 </
超级会员免费看
订阅专栏 解锁全文
746

被折叠的 条评论
为什么被折叠?



