分区表

Dynamic Partition Inserts
在动态分区插入中,用户可以提供部分分区规范,这意味着在分区子句中指定分区列名称的列表。列值是可选的。如果给定一个分区列值,我们将其称为静态分区,否则它就是一个动态分区。每个动态分区列都有来自select语句的相应的输入列。这意味着动态分区创建是由输入列的值决定的。动态分区列必须在SELECT语句和SELECT语句中的列中指定。
动态分区在0.90之后默认启用,以下是开启动态分区的配置选项:
hive.exec.dynamic.partition
true
开启动态分区
hive.exec.dynamic.partition.mode
nonestrict
Strict模式下,必须指定一个静态分区才可以,如果想完全开启动态分区,可以设置为none
hive.exec.max.dynamic.partitions.pernode
100
mapper/reducer节点允许开启的最大分区数
hive.exec.max.dynamic.partitions
1000
分区最大个数
hive.exec.max.created.files
100000
MR作业可以创建的最大文件数量
hive.error.on.empty.partition
false
动态分区插入了空数据,是否抛出异常
例子
FROM page_view_stg pvs INSERT OVERWRITE TABLE page_view PARTITION(dt=‘2008-06-08’, country) SELECT pvs.viewTime, pvs.userid, pvs.page_url, pvs.referrer_url, null, null, pvs.ip, pvs.cnt
分区表一般在数据量比较大,且有明确的分区字段时使用,这样用分区字段作为查询条件查询效率会比较高。
Hive分区分为静态分区和动态分区
1、建表语句
先用一个有分区字段的分区表进行学习,静态分区和动态分区的建表语句是一样的。
create table test_partition ( id string comment ‘ID’, name string comment ‘名字’ ) comment ‘测试分区’ partitioned by (year int comment ‘年’) ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘,’ ;

2、插入语句
静态分区和动态分区的插入数据的语句是不一样的,所以分开
2.1 静态分区
静态分区是在语句中指定分区字段为某个固定值,多次重复插入数据是为了看看数据如何在hdfs上存储的。
2.1.1 insert into
insert into table test_partition partition(year=2018) values (‘001’,‘张三’); insert into table test_partition partition(year=2018) values (‘001’,‘张三’); insert into table test_partition partition(year=2018) values (‘002’,‘李四’);
2.1.2 load data
load data local inpath ‘/root/dkl/data/data.txt’ into table test_partition partition (year =2018); load data local inpath ‘/root/dkl/data/data.txt’ into table test_partition partition (year =2018); load data local inpath ‘/root/dkl/data/data.txt’ into table test_partition partition (year =2017);
在这里插入图片描述

分区2018的路径为

/apps/hive/warehouse/dkl.db/test_partition/year=2018
/apps/hive/warehouse 为hive的仓库路径
dkl.db dkl为数据库名称
test_partition为表名
year为分区字段名
2.2 动态分区
2.2.1 insert into
开启动态分区 set hive.exec.dynamic.partition.mode=nonstrict;
insert into table test_partition partition(year) values (‘001’,‘张三’,2016);
2.2.2 load data
不能使用load data进行动态分区插入可以使用另一种方法解决
首先创建没有分区的表
create table test ( id string comment ‘ID’, name string comment ‘名字’, year int comment ‘年’ ) comment ‘测试’ ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘,’ ;
先将数据load进test表

load data local inpath ‘/root/dkl/data/data.txt’ into table test;
然后从表test,动态分区插入test_partition中
insert into table test_partition partition(year) select * from test;
如果后面select具体字段的话,需要保证顺序一致,把分区字段放在最后。
insert into table test_partition partition(year) select id,name,year from test;
3、查看分区信息

show partitions test_partition;
hive> show partitions test_partition; OK year=2017 year=2018 Time taken: 0.719 seconds, Fetched: 2 row(s)
4、添加分区字段
查了一下,不能添加新的分区字段
4.1 添加新分区

alter table test_partition add partition (year=2012);
这样就会新建对应的hdfs路径下一个year=2012的文件夹
当然也可以指定localtion,这样就不会在默认的路径下建立文件夹了

alter table test_partition add partition (year=2010) location ‘/tmp/dkl’;
4.2 添加非分区字段

alter table test_partition add columns(age int);
这样新加的字段是在非分区字段的最后,在分区字段之前
不过这里有一个bug,就是往表里新插入数据后,新增的age字段查询全部显示为NULL(其实数据已经存在):
新增加的分区是不存在这个bug的,比如之前没有year=2011这个分区,那么新增的话不会存在bug
分区在添加age字段之前已存在(即使该分区下没有任何数据),bug存在
解决方法:
对已存在的分区执行下面的sql即可,以分区2018为例
alter table test_partition partition(year=2018) add columns(age int);
5、多个分区字段
以两个分区字段为例
5.1 建表
create table test_partition2 ( id string comment ‘ID’, name string comment ‘名字’ ) comment ‘测试两个分区’ partitioned by (year int comment ‘年’,month int comment ‘月’) ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘,’ ;
5.2 HDFS存储格式
看一下多个分区的的表如何在HDFS上存储的,用静态分区的形式插入一条记录:
insert into table test_partition2 partition(year=2018,month=12) values (‘001’,‘张三’);

/apps/hive/warehouse/dkl.db/test_partition2/year=2018/month=12
在这里插入图片描述
6、删除分区
只能删除某个分区,如删除分区2018,而不能删除整个分区year字段。
6.1 单分区表

alter table test_partition drop partition(year=2018);
6.2 多分区表
6.2.1 删除year=2018,month=12

alter table test_partition2 drop partition(year=2018,month=12);
6.2.2 删除year=2018
year=2018所有的月份都会删除

alter table test_partition2 drop partition(year=2018);
6.2.3 删除month=10
所有月份等于10的分区都会删除,无论year=2018,还是year=2017…

alter table test_partition2 drop partition(month=10);

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值