分析方法
架构导图
背景
注意库存表
left join 主表, 将没有库存的数据也整合到一起
选当天时间
关联
两个事实表
指标
如果销量平均值是小数,则向上取整 3.5→4
日报
干了什么
进度多少
有没有难题?
任务完成没
如何确定最细粒度?
select * from table where=一个或多个字段,通过这个条件看是否有唯一的一条数据,如果没有重复数据,那么这个where条件后的字段就是最细粒度
最细粒度的作用?
保证数据是唯一的,比如表连接时,on后面的条件为最细粒度,那么这两个表就是一对一连接,如果不是最细粒度,就是一对多连接
ODS
数据的清洗转换
去重
- group by
- distinct
- row_number()over(partition by 有重复数据的字段 )
空值
- 主键空值 , 一般是 删除 该条数据
- 其他列空值, 一般会根据开发文档的要求去处理, 将 空格 'NULL' 等字符串列 转换成 null 值 数值型 一般转换成 0
不规范数据 :
- 身份证号
- 手机号
- 邮箱
- IP
码值的转换
- 支付码值
- 性别
- 国家
- 币种