- 博客(2)
- 收藏
- 关注
转载 transform Vs Udf
在鞋厂的第一个任务,拆表。需要把订单表按照开始日期和结束日期拆分成多条记录,挺新鲜的~ transform方式,使用到了python。 (1)把hive表的数据传入,通过python按照日期循环处理,返回多条记录。 (2)生成序列表,然后采用cross join的方式,在hive端生成多条记录,再根据日期和序列进行处理。 udf方式,更容易操作,我个人习惯使用Java。udf传入...
2018-08-16 13:11:00
157
转载 hive优化-数据倾斜优化
数据倾斜解决方法,通常从以下几个方面进行考量: 业务上丢弃 • 不参与关联:在on条件上直接过滤 • 随机数打散:比如 null、空格、0等“Other”性质的特殊值倾斜键记录单独处理• Join:找出倾斜key,把对应数据插入临时表,如果该表是小表,使用map join解决; • Group by: set hive.groupby.skewindata = tru...
2018-08-16 09:59:00
149
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人