下一代数据挖掘工具与因果推断方法
1. 数据挖掘应用场景
在数据挖掘领域,存在多种不同类型的应用场景,这些场景对数据的分析和处理提出了不同的挑战和需求。
- 多维空间数据 :在二维地图上的城市分布数据、三维脑部扫描的医学图像数据库以及多媒体数据库中,对象可表示为特征空间中的点。这些数据集中,k - d 点的分布很少是均匀的,因此需要简洁地描述其与均匀分布的偏差,这对于数据挖掘、假设检验和规则发现至关重要。
- 时间序列数据 :时间序列数据极为常见,有大量关于线性和非线性预测的研究,近年来传感器数据也受到了广泛关注。
- 图和网络数据 :图、网络及其规律最近吸引了大量关注。例如万维网,它激发了许多重要发现,如 Kleinberg 算法和 PageRank 算法。在大型真实网络中发现模式和规律有众多应用,包括犯罪学和执法中的链接分析、病毒传播模式分析、基因调控网络分析等。
2. 分形理论在数据挖掘中的应用
分形理论为解决上述数据挖掘问题提供了强大的工具。
- 分形的定义 :直观上,一组点如果在所有尺度上都表现出自相似性,那么它就是一个分形。以 Sierpinski 三角形为例,它通过递归地排除等边三角形的中间部分得到,所得点集在任何尺度上都有“洞”,且每个小三角形都是整个三角形的微型复制品。
- 分形维度 :由于分形点集既不是一维欧几里得对象(具有无限长度)也不是二维对象(面积为零),因此引入了分形维度的概念。其中,相关分形维度 D 是最容易描