hive分区之《静态分区》和《动态分区》

Hive分区详解

先准备一个基础表student

select * from student;

id  name        age     sex
-----------------------------
1   zhangsan    19      boy
2   lisi        18      girl
3   wangwu      17      boy
4   lucy        20      girl
6   lilei       20      boy

静态分区

--创建静态分区表
create table student_p_1 (
	id int,
	name string
)
partitioned by(
	sex string,
	age int
)
row format delimited 
fields terminated by ',';
--导入数据到静态分区表
insert overwrite table student_p_1 partition(sex='boy',age=17) 
 select id, name from student where sex='boy' and age = 17; 

insert overwrite table student_p_1 partition(sex='boy',age=18) 
 select id, name from student where sex='boy' and age = 18; 

insert overwrite table student_p_1 partition(sex='boy',age=19) 
 select id, name from student where sex='boy' and age = 19; 

insert overwrite table student_p_1 partition(sex='boy',age=20) 
 select id, name from student where sex='boy' and age = 20; 

insert overwrite table student_p_1 partition(sex='girl',age=17)
 select id, name from student where sex='girl' and age = 17; 

insert overwrite table student_p_1 partition(sex='girl',age=18) 
 select id, name from student where sex='girl' and age = 18; 

insert overwrite table student_p_1 partition(sex='girl',age=19)
 select id, name from student where sex='girl' and age = 19; 

insert overwrite table student_p_1 partition(sex='girl',age=20)
 select id, name from student where sex='girl' and age = 20; 

 

#在看一下hdfs中的文件 
-> hadoop dfs -lsr /user/hive/warehouse/student_p_1

/user/hive/warehouse/student_p_1/sex=boy
/user/hive/warehouse/student_p_1/sex=boy/age=17
/user/hive/warehouse/student_p_1/sex=boy/age=17/000000_0
/user/hive/warehouse/student_p_1/sex=boy/age=18
/user/hive/warehouse/student_p_1/sex=boy/age=18/000000_0
/user/hive/warehouse/student_p_1/sex=boy/age=19
/user/hive/warehouse/student_p_1/sex=boy/age=19/000000_0
/user/hive/warehouse/student_p_1/sex=boy/age=20
/user/hive/warehouse/student_p_1/sex=boy/age=20/000000_0
/user/hive/warehouse/student_p_1/sex=girl
/user/hive/warehouse/student_p_1/sex=girl/age=17
/user/hive/warehouse/student_p_1/sex=girl/age=17/000000_0
/user/hive/warehouse/student_p_1/sex=girl/age=18
/user/hive/warehouse/student_p_1/sex=girl/age=18/000000_0
/user/hive/warehouse/student_p_1/sex=girl/age=19
/user/hive/warehouse/student_p_1/sex=girl/age=19/000000_0
/user/hive/warehouse/student_p_1/sex=girl/age=20
/user/hive/warehouse/student_p_1/sex=girl/age=20/000000_0
#查看student_p_1的分区
hive > show partitions student_p_1;
sex=boy/age=17
sex=boy/age=18
sex=boy/age=19
sex=boy/age=20
sex=girl/age=17
sex=girl/age=18
sex=girl/age=19
sex=girl/age=20

可以看到静态表每次导入数据的时候都要手动为分区字段赋值

动态分区

--创建动态分区表student_p_2(建表语句和静态分区无区别)
create table student_p_2 (
    id int,
    name string
) 
partitioned by(
    sex string,
    age int
) 
row format delimited 
fields terminated by ',';
#动态分区相关参数设置

#开始动态分区(true:打开动态分区 false:关闭,默认true)
hive > set hive.exec.dynamic.partition=true;

#设置动态分区模式(nostrick:分区字段可以全部为动态,strick:分区字段中必须要至少要有一个静态字段,默认strick)
hive > set hive.exec.dynamic.partition.mode=nostrick;

 

--导入数据
insert overwrite table student_p_2 partition(sex,age) select id,name,sex,age from student;
--查看数据
select * from student_p_1;

3	wangwu	boy	17
1	zhangsan	boy	19
6	lilei	boy	20
2	lisi	girl	18
4	lucy	girl	20

 

查看stuent_p_2分区

hive > show partitions student_p_2;
OK
sex=boy/age=17
sex=boy/age=19
sex=boy/age=20
sex=girl/age=18
sex=girl/age=20
#hsfs 中的目录
./hadoop dfs -lsr /user/hive/warehouse/student_p_2

/user/hive/warehouse/student_p_4/sex=boy
/user/hive/warehouse/student_p_4/sex=boy/age=17
/user/hive/warehouse/student_p_4/sex=boy/age=17/000000_0
/user/hive/warehouse/student_p_4/sex=boy/age=19
/user/hive/warehouse/student_p_4/sex=boy/age=19/000000_0
/user/hive/warehouse/student_p_4/sex=boy/age=20
/user/hive/warehouse/student_p_4/sex=boy/age=20/000000_0
/user/hive/warehouse/student_p_4/sex=girl
/user/hive/warehouse/student_p_4/sex=girl/age=18
/user/hive/warehouse/student_p_4/sex=girl/age=18/000000_0
/user/hive/warehouse/student_p_4/sex=girl/age=20
/user/hive/warehouse/student_p_4/sex=girl/age=20/000000_0

动态分区在导入数据的时候不用指定分区字段,hive会自动映射到分区

优缺点

动态分区会自动映射,性能可以会差点。

静态分区需要手动指定,性能会好点。

动态分区其他参数

  • hive.exec.max.dynamic.partitions.pernode=100 (默认100)表示每个maper或reducer可以允许创建的最大动态分区个数,超出则会报错。
  • hive.exec.max.dynamic.partitions =1000(默认值) 表示一个动态分区语句可以创建的最大动态分区个数,超出报错
  • hive.exec.max.created.files =10000(默认) 全局可以创建的最大文件个数,超出报错。
     
### Hive 动态分区静态分区的区别 #### 基本概念 Hive中的分区是一种优化技术,用于提高查询性能并减少扫描的数据量。根据分区值的定义方式不同,可以将分区分为静态分区动态分区。 - **静态分区**是指在插入数据时,用户需要手动指定分区的值[^3]。这意味着,在执行 `INSERT` 操作之前,开发者必须清楚地知道要写入哪个具体的分区。 - **动态分区**则是指在插入数据时,分区的值由数据本身决定,而不是通过显式的参数设置来完成。在这种情况下,用户的 SQL 查询会自动提取数据中的字段作为分区键,并将其分配到相应的分区中。 #### 主要区别 | 特性 | 静态分区 | 动态分区 | |-------------------|------------------------------------------------------------------------------------------|-----------------------------------------------------------------------------------------| | 分区值来源 | 用户手动指定 | 数据本身的字段值 | | 性能影响 | 插入操作简单快速 | 可能涉及更多的计算开销,因为需要解析每条记录以确定其所属分区 | | 易用性灵活性 | 较低;适用于已知固定数量的小规模分区 | 更高;适合处理大规模未知范围内的分区 | | 配置需求 | 不需额外配置 | 需启用动态分区功能 (`SET hive.exec.dynamic.partition=true`) 并调整模式 | 为了支持更灵活的大规模数据分析场景,Hive提供了如下两个重要属性用来控制动态分区行为: ```sql -- 开启动态分区功能 SET hive.exec.dynamic.partition=true; -- 设置为非严格模式,允许全部使用动态分区而无需至少一个静态维度(推荐生产环境谨慎开启) SET hive.exec.dynamic.partition.mode=nonstrict; ``` 以上命令确保了即使所有的分组依据都来自输入数据列也可以正常工作而不报错[^2]. --- ### 使用场景分析 #### 静态分区适用场景 当目标表具有少量预设好的分区且这些分区不会频繁变化时,采用静态分区更为合适.例如按年份存储日志文件或者针对特定业务逻辑划分客户群体. 优点在于减少了不必要的复杂度以及潜在错误风险的同时还能获得较好的读取效率. 例子: 假设我们有一个销售订单表格按照地区分类存放在不同的目录下. 我们可以先创建一张带区域字段(partitioned by region) 的hive外部表然后逐批导入对应地区的原始csv文档至相应路径里去形成最终结构化视图. ```sql CREATE EXTERNAL TABLE IF NOT EXISTS sales_orders ( order_id STRING, customer_name STRING, product STRING, amount DOUBLE ) PARTITIONED BY (region STRING); ALTER TABLE sales_orders ADD PARTITION(region='North') LOCATION '/data/sales/north'; LOAD DATA INPATH '/tmp/orders_north.csv' INTO TABLE sales_orders PARTITION(region='North'); ``` 此过程完全依赖于人工干预从而保证精确无误地把各部分资料送达到正确位置上去了. #### 动态分区适用场景 对于那些每天都会新增大量新类别或时间戳关联型事件流的应用程序来说则更适合运用动态分区策略.比如监控服务器运行状态指标每隔几分钟就会产生一批新的测量数值连同当前时刻一起保存下来供后续统计报表生成之用. 此时如果还坚持沿用手动设定每一个可能遇到的时间点来做为独立子集的话无疑增加了维护成本同时也容易遗漏某些特殊情况下的异常情况无法及时捕捉反馈给相关人员采取措施加以解决. 因此借助自动化机制让系统自行判断哪些独特的组合尚未存在进而自动生成必要的扩展显得尤为重要. 实例演示如何利用动态特性简化多级嵌套层次关系管理: ```sql CREATE TABLE web_logs ( ip_address STRING, request_url STRING, response_code INT, bytes_sent BIGINT ) PARTITIONED BY (datestamp STRING, hour INT); FROM staging_weblogs s INSERT OVERWRITE TABLE web_logs PARTITION(datestamp,hour) SELECT s.ip_address, s.request_url, s.response_code, s.bytes_sent, substr(s.timestamp,0,10) as datestamp, -- 提取日期部分 cast(substr(s.timestamp,12,2) AS INT) as hour; -- 转换小时数为整数类型 ``` 这里我们将源数据集中包含完整时间戳信息的一列拆分成两段分别映射为目标表上的两级分区字段即天级别(`datestamp`) 小时级别(`hour`).整个转换过程中完全没有人为参仅仅依靠简单的字符串截断函数即可达成目的大大降低了开发难度提高了工作效率. --- ###
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值