阿里大数据之路学习-维度整合

维度整合
对多中源数据的整合:

1.表,字段命名规范统一
2.字段类型统一 字段长度统一
3.公共代码,代码值统一
4.含义类似表的统一:
4.1 主从 共有字段组成主表,其他字段存在原有表内形成从表 主键关联
4.2 合并 所有字段都在一张表中 空值可能较多
4.3 不合并 差异太大就不合并了

对表的整合
1.垂直整合 将同一数据集 主体相同 属性不同
添加属性 不添加行数 大宽表
2.水平整合 字段属性大多一样
添加行数 统一主键 注重相同数据的合并
对表的拆分
1.水平拆分 行数不变 将属性分类划分到多张表中
基本信息表(部分主要属性,常用)
和附加信息表(部分特有属性,不常用)
2垂直拆分 行数减少
存在部分数据存在特殊维度属性
由于时效问题 部分数据访问多 部分数据访问少
最近代码表 与 之前代码表

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值