hive中的动态分区和静态分区

最新推荐文章于 2025-04-26 22:05:42 发布

原创最新推荐文章于 2025-04-26 22:05:42 发布 · 547 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#静态分区 #动态分区 #hive

hive 专栏收录该内容

12 篇文章

订阅专栏

本文详细介绍了Hive中动态分区的概念及其与静态分区的区别。动态分区允许根据查询结果自动创建分区，提高了数据处理效率。文章还讨论了动态分区在实际应用中的注意事项，包括合理设置reduce数量以避免namenode负载过高的问题。

HIVE分区，实际上是通过一个路径来标识的，而不是在物理数据中。比如每天的数据，可能分区是pt=20121023这样，那么路径中它就会变成：/hdfs/path/pt=20121023/data_files。通过路径来标识的好处是，如果我们需要取特定分区的数据，只需要把这个路径下的数据取出来就可以了，不用扫描全部的数据。

HIVE默认是静态分区。但是有时候可能需要动态创建不同的分区，比如商品信息，我想根据它是否在线分成两个分区，这样后续如果要取在线商品，就只需要从在线的分区获取即可。动态分区可以通过下面的设置来打开：

set hive.exec.dynamic.partition=true;

set hive.exec.dynamic.partition.mode=nonstrict;

然后代码里就可以这么写：

insert overwrite table tbl_name partition(pt, if_online)

select field1, field2, ..., pt, if_online

from tbl

where xxx;

注意输入字段的最后面必须是动态分区字段。

看一下与静态分区写法的区别：

insert overwrite table tbl_name partition(pt=20121023, if_online=1)

select field1, field2, ..., fieldn

from tbl

where xxx;

动态分区与静态分区还有一个细微的差别是，静态分区一定会创建分区，不管SELECT语句的结果有没有数据。而动态分区，只有在SELECT结果的记录数>0的时候，才会创建分区。因此在不同的业务场景下，可能会选择不同的方案。

另外使用动态分区时需要注意的比较重要的一点是，动态分区会为每一个分区分配reduce数。比如说你在脚本上面写了：set mapred.reduce.tasks=100;

并且有两个分区：pt, if_online。如果结果集中pt=20121023，if_online=0/1，那么它就会为pt=20121023/if_online=0，pt=20121023/if_online=1各分配100个reduce。也就是说，namenode会同时处理200个文件的写操作。这在分区值很多的情况下，会成为一个灾难，容易直接把namenode给搞挂掉，是非常危险的。因此使用动态分区时，一定要清楚地知道产生的动态分区值，并且合理地设置reduce数量.