1.获得更高的查询处理效率
在
分区数量过于庞大
以至于可能导致文件系统崩溃时,或数据集
找不到合理的分区字段
时,我们就 需要
使用分桶
来解决问题了。
分区中的数据可以被进一步拆分成桶
,不同于分区对列直接进行拆分,桶往往使用列的哈希值对数 据打散,并分发到各个不同的桶中从而完成数据的分桶过程。
注意,hive使用对分桶所用的值进行hash,并用hash结果除以桶的个数做
取余运算
的方式来桶, 保证了每个桶中都有数据,但每个桶中的数据条数
不一定相等
。
如果另外一个表也按