基于压缩的模式集挖掘与应用
1. 数据挖掘任务中的压缩应用
压缩在一系列数据挖掘任务中提供了强大的方法,可用于模式的挖掘和使用。下面介绍一些具体的数据挖掘任务及压缩在其中的应用。
1.1 数据库组件识别
当样本发生变化时,就需要诱导新的模型。对于突然的分布变化,这种方案非常有效。
1.2 连贯组发现
该任务旨在发现偏离整体分布的数据连贯子集,属于子空间聚类的一个实例。从最小描述长度(MDL)的角度来看,目标是找到那些自身比作为完整数据库一部分时能更好压缩的组。例如,将此方法应用于不同媒体类型的标签数据,仅使用标签信息就能发现媒体(如照片)的连贯组。
1.3 离群点检测
所有数据库都包含离群点,但定义离群点并检测它们是具有挑战性的任务。假设离群点数量较少,那么数据集的大部分是“正常”的。因此,在数据库上诱导的模型应主要捕捉正常情况,而不是离群点。离群点检测可以形式化为一类分类问题:所有能被很好压缩的元组属于“正常”分布,而编码较长的元组可能被视为离群点。对于事务数据,这种方法的性能与该领域的最新技术相当。
2. 基于模式的模型的优势
使用基于模式的模型有诸多好处。除了获得具有竞争力的、最先进的性能外,这些模式有助于表征决策。例如:
- 离群点检测 :可以指出一个元组为何被识别为异常,以及它异常的程度,即需要做多少努力才能使其“正常”。
- 分类任务 :也有类似的优势。
- 聚类相关任务 :可以提供专门的代码
超级会员免费看
订阅专栏 解锁全文
1564

被折叠的 条评论
为什么被折叠?



