GDFS1680-优快云博客

转载 transform Vs Udf

在鞋厂的第一个任务，拆表。需要把订单表按照开始日期和结束日期拆分成多条记录，挺新鲜的~ transform方式，使用到了python。（1）把hive表的数据传入，通过python按照日期循环处理，返回多条记录。（2）生成序列表，然后采用cross join的方式，在hive端生成多条记录，再根据日期和序列进行处理。 udf方式，更容易操作，我个人习惯使用Java。udf传入...

2018-08-16 13:11:00 178

转载 hive优化-数据倾斜优化

数据倾斜解决方法，通常从以下几个方面进行考量：业务上丢弃 • 不参与关联：在on条件上直接过滤 • 随机数打散：比如 null、空格、0等“Other”性质的特殊值倾斜键记录单独处理• Join：找出倾斜key，把对应数据插入临时表，如果该表是小表，使用map join解决； • Group by： set hive.groupby.skewindata = tru...

2018-08-16 09:59:00 170

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人