基于压缩的模式挖掘与应用
在数据挖掘领域,压缩技术在模式挖掘和模型应用中发挥着重要作用。本文将深入探讨基于压缩的模式挖掘方法,包括剪枝策略、直接挖掘压缩模式,以及这些方法在分类、数据集差异度量、组件识别等多个数据挖掘任务中的应用。
1. 剪枝策略
在候选过滤方法中,剪枝是一种有效的改进策略。随着搜索的进行,之前添加到模型中的模式可能会变得过时,不再有助于提高压缩效果。因此,我们可以通过剪枝操作来测试移除某些模式是否能改善压缩性能。
- 剪枝策略 :
- 全面检查策略 :检查当前模式集所有有效子集的压缩效果,选择压缩后尺寸最小的模型。不过,这种方法计算量较大。
- 高效替代策略 :在接受一个候选模式 F 后立即进行剪枝。以启发式顺序依次考虑当前模型中的每个模式,若移除某个模式不会增加数据和模型的编码长度,则将其永久从模型中移除。
剪枝是 Krimp 算法的关键元素之一,它能够移除那些已找到更好替代的模式,从而提高压缩率和速度,同时减小模式集的规模。
2. 直接挖掘压缩模式
候选过滤方法虽然概念简单且通用,但对于非平凡数据,挖掘、存储和排序候选模式的计算成本较高。因此,我们考虑直接从数据中挖掘高质量的代码表。
- 挖掘策略 :
- 从一个“空”模型 M 开始。
- 找到使 L(D, M ∪
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



