数据立方体计算与数据泛化详解
在数据挖掘领域,数据立方体计算和数据泛化是重要的概念和技术。下面将详细介绍相关的知识,包括基本概念、计算方法、探索方式以及实际应用等方面。
1. 数据泛化与描述性数据挖掘
数据泛化是将数据库中大量与任务相关的数据从较低的概念层次抽象到较高概念层次的过程。它有两种主要方法:基于数据立方体的数据聚合和面向属性的归纳。
从数据分析的角度来看,数据泛化属于描述性数据挖掘的一种形式。描述性数据挖掘以简洁和概括的方式描述数据,并呈现数据的有趣的一般属性,这与预测性数据挖掘不同,预测性数据挖掘分析数据是为了构建一个或一组模型,并尝试预测新数据集的行为。
2. 数据立方体的基本概念
数据立方体由长方体的格组成,每个长方体对应给定多维数据的不同汇总程度。
- 完全物化 :指计算数据立方体格中的所有长方体。
- 部分物化 :指选择性地计算格中长方体单元的一个子集。冰山立方体和壳片段就是部分物化的例子。
- 冰山立方体 :只存储那些聚合值(如计数)高于某个最小支持阈值的立方体单元。
- 壳片段 :只计算涉及少量维度的一些长方体,对维度的其他组合的查询可以动态计算。
3. 数据立方体计算方法
有几种有效的数据立方体计算方法,下面详细介绍四种:
- MultiWay数组聚