hive表分区字段需要注意的问题

最新推荐文章于 2023-03-14 18:30:25 发布

原创最新推荐文章于 2023-03-14 18:30:25 发布 · 2.2k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#hive #分区

hive 专栏收录该内容

3 篇文章

订阅专栏

近期项目中使用hive做数据统计，创建了一些hive表，在这个过程中，涉及到了设计分区的问题，简单做个总结，以新增表为例：

V1版本：

CREATE TABLE IF NOT EXISTS stat_install(
uuid                string,
ver                 int,
version_code        int,
channel             int,
ipaddr              bigint,
dpi                 int,
device              int,
os                  int,
country             int,
language            string,
province            int,
agent               string,
network             int,
upgrade             int,
install_date        string
) PARTITIONED by (year int, month int, day int, hour int)
ROW format delimited fields terminated by "#";

V2版本：

CREATE TABLE IF NOT EXISTS stat_install(
uuid                string,
ver                 int,
version_code        int,
channel             int,
ipaddr              bigint,
dpi                 int,
device              int,
os                  int,
country             int,
language            string,
province            int,
agent               string,
network             int,
upgrade             int,
install_date        string
) PARTITIONED by (dt string)
ROW format delimited fields terminated by "#";

V1版本，按照year，month，day，hour分区。分区的字段比较细，统计小时任务只需指定 hour = ？；统计天任务只需指定day = ？；年任务 year = ？；看起来不错，但是当跑周任务或者跨天的任务时候，就很难用year，month，day去表示一个时间段了，这时候就需要使用install_date字段取表示范围

例如：查找 2015-01-19 开始一周的数据：

install_date >= '2015-01-19' and install_date < '2015-01-26'；

而install_date并非分区字段，查询起来是非常慢的；而且这样分区还有一个弊端就是文件分的过细；

V2版本，重新按照dt分区，例如：dt = ‘2015-01-19’，这样可以很好地解决跨天的问题，但是小时任务只能根据install_date去做限定。

例如：查找 2015-1-19号 hour = 10 的数据：

 install_date >= '2015-01-19 10:00:00' and install_date < '2015-01-19 11:00:00'

V2版本相对V1，处理数据更方便，如果小时数据比较多，也可以考虑V3版本使用: (dt string, hour int)进行分区。如果涉及海外数据的话，需要考虑时区问题，可以通过设置服务器时区为东八区；或者不想设置时区的话，分区使用时间戳的形式，从统计到前端展示都使用时间差戳。时间戳的缺点是不直观，如果hive中的数据出错，不好排查。

分区方式比较重要，决定了查询的性能，欢迎大家讨论和指教。