24、基于压缩的模式挖掘与应用

基于压缩的模式挖掘与应用

在数据挖掘领域,压缩技术在模式挖掘和模型应用中发挥着重要作用。本文将深入探讨基于压缩的模式挖掘方法,包括剪枝策略、直接挖掘压缩模式,以及这些方法在分类、数据集差异度量、组件识别等多个数据挖掘任务中的应用。

1. 剪枝策略

在候选过滤方法中,剪枝是一种有效的改进策略。随着搜索的进行,之前添加到模型中的模式可能会变得过时,不再有助于提高压缩效果。因此,我们可以通过剪枝操作来测试移除某些模式是否能改善压缩性能。

  • 剪枝策略
    • 全面检查策略 :检查当前模式集所有有效子集的压缩效果,选择压缩后尺寸最小的模型。不过,这种方法计算量较大。
    • 高效替代策略 :在接受一个候选模式 F 后立即进行剪枝。以启发式顺序依次考虑当前模型中的每个模式,若移除某个模式不会增加数据和模型的编码长度,则将其永久从模型中移除。

剪枝是 Krimp 算法的关键元素之一,它能够移除那些已找到更好替代的模式,从而提高压缩率和速度,同时减小模式集的规模。

2. 直接挖掘压缩模式

候选过滤方法虽然概念简单且通用,但对于非平凡数据,挖掘、存储和排序候选模式的计算成本较高。因此,我们考虑直接从数据中挖掘高质量的代码表。

  • 挖掘策略
    • 从一个“空”模型 M 开始。
    • 找到使 L(D, M ∪
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值