新零售 = 线上下单 + 线下配送售后
叮咚买菜、盒马鲜生、鲜丰、百果园、朴朴、每日优鲜
业务流程类比与,外卖平台,,
两个项目选spark
即席查询???
画技术架构图,, ???
可以加上软件版本嘛
取决于简历项目时间,,至少前一年,,
cdh6,18,19年出来的,
事实指标值的分类
可累加、半可累加、不可累加
UV半可累加,时间维度不可累加,地区维度可累加
uv重复(1个用户三十天都访问,只统计1个)
比率类不可累加
如果不可累加:对所有数据重新计算(上卷基于上一层)
400行的代码,,宽表字段多关联表多,多种8种组合维度,
ETL工程师 岗位:大数据 ETL工程师 看岗位需求hadoop
不找建模相关工作,,只能经验积累,,至少2个项目积累后,,
岗位侧重点擅长不同,建模,业务,开发,spark,flink,
md高亮需要背诵,,,
拉链表,历史状态,不太冗余,,
开链,闭链,断链,
-
开链:数据进入拉链表,当前是数据的最新状态,endTime=9999-12-31
-
闭链:数据在拉链表变成了历史状态,endTime = 有了具体的值
-
断链:漏了某一天的数据没有拉链
-
退链:将拉链表回退到某一天的状态
1-一般在表中规范来讲,不允许存在null中
值
数值:0
字符串:-1 、''
Join/分组:这一列不会包含null
hive优化,spark优化,
属性优化,