正在学习大数据与云计算方面的东西,听起来挺高级的,想想无非是数据的各种分析处理,那么,今天就整理下笔记分享一些具体的数据挖掘中关于数据方体的压缩处理知识。
预备知识
首先,关于数据方体的概念,在结构上它是个格结构(如下图),也称为数据方体格,简称数据方体。其实也可以理解是对多维数据模型的抽象描述术语。多维数据模型就更容易接受了,如时间,地点,人物数据集合就构成多维(三维)数据模型。具体的,假设数据集有A、B、C三个维,每个维上只有一个层,则可以组合出8个cuboid,分别是:ABC,AB,AC,BC,A,B,C,all。可知数据方体的一些特性:
1,n维数据集,cuboid为2^n
2,导出关系:如果cuboid a是由cuboid b通过减少维的个数或者上升维的层得到的,则称cuboid a可以由cuboid b导出。如图A可由AB或AC导出
数据压缩处理
首先,为什么要进行数据方体的压缩?主要是为节省存储空间,好的数据方体压缩算法还应做到快速计算查询和方便维护。举个例子