Hive-分区与分桶

原创已于 2024-06-23 20:04:33 修改 · 362 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#hadoop #hive #数据仓库 #sql

于 2024-04-30 18:30:00 首次发布

本文介绍了大数据开发中如何通过表的分区和分桶技术提高查询速度。主要内容包括单个和多个分区的概念、操作注意事项，以及分桶的创建、原理和主要应用场景，特别是针对关联查询和性能优化的使用技巧。

一、表的分区

大数据开发数据量较大，在进行数据查询计算时，需要对数据进行拆分，提升的查询速度

1-1 单个分区

单个分区是创建单个目录

-- 创建表指定分区，对原始数据进行分区保存
create table new_tb_user(
    id int,
    name string,
    age  int,
    gender int,
    create_time date
)partitioned by (gender_p int)
row format delimited fields terminated by ',';

select * from new_tb_user;

-- 将原始数据表的数据写入新的分区表中
-- 静态写入分区数据 需要手动自己指定分区数值
-- insert into new_tb_user partition(gender_p=0) select * from tb_user where gender=0
-- 动态写入分区数据
-- 可以指定一个字段数据，根据字段数据内容进行分区
set hive.exec.dynamic.partition.mode=nonstrict;

insert into new_tb_user partition(gender_p) select id,name,age,gender,create_time,gender from tb_user;

desc new_tb_user;
desc tb_user;

1-2 多个分区

多个分区可以将数据拆分多个目录存储

create table new2_tb_user(
    id int,
    name string,
    age  int,
    gender int,
    create_time date
)partitioned by (y string,m string,d string)
row format delimited fields terminated by ',';

select * from new2_tb_user;
insert into new2_tb_user partition(y,m,d) select id,name,age,gender,create_time,year(create_time),month(create_time),day(create_time) from tb_user  limit 10;

注意点

1-分组字段不能和表中字段重名

2-动态分区数据写入时，select中字段顺序要和分区表中字段顺序一致

3-分区字段是在最后，所以select中的分区数据指定也放在最后

1-3 分区的增删改查

-- 创建一个分区表
create table tb_student(
    id int,
    name string,
    gender string,
    age int,
    cls string
)partitioned by (cls_p string)
row format delimited fields terminated by ',';

-- show查看分区表的分区信息
show partitions tb_student;

-- 生成分区数据信息
-- 方式1 通过insert数据导入，生成对应的分区数据
-- 方式2 通过add方法直接指定分区，指定后会在对应表目录下生成分区目录
alter table tb_student add partition(cls_p='CS');
show partitions tb_student;
select * from tb_student;

-- 修改分区名
ALTER TABLE tb_student PARTITION(cls_p='CS') RENAME TO PARTITION(cls_p='CS2');

-- 删除分区
alter table tb_student drop partition(cls_p='CS')

二、表的分桶

分区将数据拆分不同目录下存储

分桶将数据拆分成不同文件进行存储

无论是分区，还是分桶，本质都是对数据的拆分存储，作用是为了提升查询的效率

2-1 分桶创建

使用分桶时，一般都是已经存在了一个原始数据表，为了提升原始数据速度，将原始数据在重新写入一个分桶表

create table tb_user_buckets(
      id int,
    name string,
    age  int,
    gender int,
    create_time date
)   -- clustered by 指定按照哪个字段的数据进行数据的拆分  into 2 buckets  指定拆分的数量
    clustered by(gender) into 2 buckets
row format delimited fields terminated by ',';

-- 将原始数据表的数据写入到分桶表
insert into tb_user_buckets select * from tb_user limit 100;


create table tb_user_buckets_new(
      id int,
    name string,
    age  int,
    gender int,
    create_time date
)   -- clustered by 指定按照哪个字段的数据进行数据的拆分  into 2 buckets  指定拆分的数量
    clustered by(gender) into 3 buckets
row format delimited fields terminated by ',';

insert into tb_user_buckets_new select * from tb_user limit 100;