Hive为什么要分桶?

1.获得更高的查询处理效率

        在 分区数量过于庞大 以至于可能导致文件系统崩溃时,或数据集 找不到合理的分区字段 时,我们就 需要 使用分桶 来解决问题了。
        分区中的数据可以被进一步拆分成桶 ,不同于分区对列直接进行拆分,桶往往使用列的哈希值对数 据打散,并分发到各个不同的桶中从而完成数据的分桶过程。
        注意,hive使用对分桶所用的值进行hash,并用hash结果除以桶的个数做 取余运算 的方式来桶, 保证了每个桶中都有数据,但每个桶中的数据条数 不一定相等
        如果另外一个表也按
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值