hive写动态分区加distribute by

文章讲述了如何通过在Spark程序中添加DistributeBy来减少因设备ID、类型和salt分区导致的大量小文件问题,从而提高数据处理效率并避免任务失败。

背景

需要把设备id,依据其类型(包括cuid、imei、oaid、idfa)和mumuhash的值(salt)写到对应的分区中,我们定义的是type, salt分区,在写的时候也是用动态分区的方法,type和salt都是在程序中计算出来的,sql如下:

insert overwrite table ugc_test_new.dwd_cpa_act_user_df_txt partition (dt = '{@date}', app = 'zuoyebang', type, salt)
select
    device_id,
    type,
    salt
from
    (
        select
            'cuid' as type,
            cuid as device_id,
            cast(mumuhash(cuid, 512) as string) 
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值