数据挖掘模式管理框架
在当今数据爆炸的时代,大量的原始数据被收集,如何有效分析这些数据成为了关键。数据挖掘通过生成紧凑的知识工件(如聚类、关联规则、频繁项集等)来处理数据,这些知识工件也被称为模式。然而,目前缺乏支持知识密集型应用开发的综合环境,本文提出了一个全面的框架来解决模式管理的相关问题。
1. 需求分析
1.1 模式的异构性
不同的应用场景会产生各种类型的模式,需要进行管理。例如,在市场篮子分析中,常见的模式有关联规则和聚类。关联规则用于识别通常一起销售的商品集合,聚类则用于进行市场细分分析。而且,我们不仅关注通过数据挖掘工具从原始数据中生成的后验模式,还关注用户已知的先验模式,这些先验模式可用于检查某些数据源的表示程度。
1.2 时间信息
由于数据源频繁变化,确定现有模式在一段时间后是否仍能代表其生成的数据源至关重要。可以考虑两种时间信息:
- 交易时间 :模式在系统中“开始存在”的时间。对于先验模式,是用户将其插入系统的时刻;对于后验模式,是从原始数据中提取并插入系统的时刻。
- 有效期 :模式相对于其数据源被认为可靠的时间间隔。有效期可以由用户或系统根据模式对原始数据的表示质量(语义有效性)来分配和管理。
1.3 模式语言
模式需要通过模式操作语言(PML)和模式查询语言(PQL)进行操作和查询。PML 必须支持后验和先验模式的管理,PQL 必须支持针对模式的操作以及将模式与原始数据结合的交叉查询。
目前提出的处理模式的方法大多存在不足,它们通常处理特定类型的后