1.入门大数据的第一步,是用流进行数据清洗并入库
1.1)Etl工具的操作
1.2)如:Kettle工具的操作
2. 数据经过清洗+比对,就整合成了数据方体;
1.1)常见清洗规则:不为空清洗、长度清洗、类型清洗、格式清洗、 非法性数据清洗、残缺数据清洗和唯一性清洗;
1.2)常见比对规则:完整性比对、权威数据比对、存在性比对、一致性比对、核查比对等;
3. 数据方体的操作包括:切片,切块 ,钻取与 旋转
3.1)数据方体:“城市、时间、因子”
3.2)切片:每次都沿一维进行的数据切割称为分片;
3.3)切块:每次都沿多维进行的数据分片称为分块;
3.4)钻取:就是改变维的层次,变换分析的粒度。钻取分为上卷和下钻;对时间上卷是日-月-年,下钻则是年-月-日。
3.5)旋转:旋转分为直交旋转和斜交旋转,如果因子与主成分两者不相干就是直角旋转;如果因子与主成分间有关系就叫斜交旋转;