Hive表分区和分桶详解_hive分区和分桶表示例-优快云博客

我们来详细讲解一下 Hive 中两个非常重要的概念：表分区 和分桶。

它们都是用于优化查询性能和数据管理的技术，但目的和实现方式有显著不同。

一、表分区

1. 什么是分区？

分区是一种根据表的某一列（通常是日期、地区、类别等具有较大范围值的列）的值，将数据在物理上分割到不同目录的技术。

逻辑上：你查询的还是一张完整的表。
物理上：表中的数据被存储在不同的子目录中，每个分区对应一个子目录。

目录结构示例：
假设你有一张日志表 logs，并按照 dt 和 country 两个字段进行分区。
那么它在 HDFS 上的存储路径可能看起来像这样：

/user/hive/warehouse/logs/
    ├── dt=2023-10-01/
    │   ├── country=US/
    │   │   └── data_file_1.orc
    │   ├── country=CN/
    │   │   └── data_file_2.orc
    │   └── country=JP/
    │       └── data_file_3.orc
    ├── dt=2023-10-02/
    │   ├── country=US/
    │   │   └── data_file_4.orc
    │   └── country=CN/
    │       └── data_file_5.orc
    └── ...

每个分区键（dt, country）都成为了目录名的一部分，其值就是目录的名字。

2. 为什么使用分区？（优点）

显著提升查询性能（最重要的优点）：当你在 WHERE 子句中指定了分区条件时，Hive 只会扫描特定分区目录下的数据，而不是全表扫描。这被称为分区裁剪。例如，查询 WHERE dt='2023-10-01' AND country='US'，Hive 只会读取 /dt=2023-10-01/country=US/ 这个目录里的文件，极大地减少了 I/O 操作。
方便数据管理：可以非常方便地对特定分区进行删除、备份、归档等操作。例如，要删除一个月前的数据，直接 ALTER TABLE logs DROP PARTITION (dt<'2023-09-01'); 即可，这个操作只是元数据操作，非常快。

3. 如何使用分区？

创建分区表：

CREATE TABLE logs (
    id BIGINT,
    user_id BIGINT,
    url STRING
)
PARTITIONED BY (dt STRING, country STRING) -- 分区字段是虚拟字段，不包含在表定义中
STORED AS ORC;

向分区加载数据：

-- 静态分区：明确知道数据要加载到哪个分区
INSERT INTO TABLE logs PARTITION (dt='2023-10-01', country='US')
SELECT id, user_id, url FROM source_table WHERE date='2023-10-01' AND region='North America';

-- 动态分区：根据SELECT结果的最后几列自动决定分区
SET hive.exec.dynamic.partition=true; -- 开启动态分区
SET hive.exec.dynamic.partition.mode=nonstrict; -- 允许所有分区都是动态的

INSERT INTO TABLE logs PARTITION (dt, country) -- 顺序要对应
SELECT id, user_id, url, date, region FROM source_table;

查询分区数据：

SELECT * FROM logs WHERE dt='2023-10-01' AND country='US';

4. 注意事项

避免过度分区：不要选择值过于唯一的列（如 user_id）作为分区键，否则会产生海量的小文件，给 NameNode 带来巨大压力，反而降低性能。
分区字段是虚拟字段：它们不是表数据本身的一部分，它们的值来源于目录结构。

二、分桶

1. 什么是分桶？

分桶是一种根据表中某一列的哈希值，将数据文件进一步分解成若干个小文件（桶） 的技术。

分区是将数据放到不同的目录。
分桶是将数据放到不同的文件。

2. 为什么使用分桶？（优点）

提升采样效率：对分桶表进行数据采样（TABLESAMPLE）会非常高效。
优化 Map-Side Joins：如果两个表都按照相同的字段（连接键）进行了分桶，且桶的数量相同或成倍数，Hive 可以执行高效的 Sort-Merge-Bucket-Join。它可以在 Map 阶段就直接进行匹配，大幅减少 Shuffle 和 Reduce 阶段的数据量。
减少数据倾斜：通过哈希散列，可以将数据更均匀地分布到不同的文件中，有助于避免某些任务处理的数据量远大于其他任务。

3. 如何使用分桶？

创建分桶表：

CREATE TABLE user_info_bucketed (
    user_id BIGINT,
    name STRING,
    email STRING
)
CLUSTERED BY (user_id) -- 根据哪个字段进行分桶
INTO 4 BUCKETS -- 分成多少个桶
STORED AS ORC;

向分桶表加载数据：

-- 必须将 hive.enforce.bucketing 设置为 true，或者使用 sorted by
SET hive.enforce.bucketing = true;

INSERT OVERWRITE TABLE user_info_bucketed
SELECT * FROM user_info_source;

Hive 会根据 user_id 的哈希值对桶数（4）取模，决定每条记录落入哪个桶文件。

进行高效连接：

-- 假设 orders 表也用 user_id 分了4个桶
SELECT *
FROM user_info_bucketed u
JOIN orders_bucketed o
ON u.user_id = o.user_id;

在这种情况下，Hive 知道 user_id 相同的记录只可能出现在两个表的相同编号的桶中。因此，它只需要将对应的桶文件进行连接即可，无需对整个表进行 Shuffle。

4. 注意事项

分桶数的选择要合适，通常与集群的可用 CPU 核心数有关。
使用 INSERT ... SELECT 语句向分桶表插入数据时，需要确保 hive.enforce.bucketing 设置为 true，或者使用 CLUSTERED BY ... SORTED BY 语句，否则分桶不会生效。

三、对比总结

特性	分区	分桶
目的	快速裁剪数据，提高查询效率，方便数据管理	均匀分布数据，提高采样、连接效率
数据划分依据	根据分区列的值	根据某列的哈希值
存储级别	目录级别（不同分区在不同目录）	文件级别（同一目录下的不同文件）
性能影响	极大减少I/O（分区裁剪）	优化JOIN和采样（桶裁剪、SMB Join）
适用场景	分区列取值范围大，且不常用于 `WHERE` 过滤条件（如日期、地区）	列取值范围广，常用于 `JOIN` 或 `WHERE` 条件（如用户ID、订单ID）
粒度	较粗	较细

四、结合使用

分区和分桶可以结合使用，先分区再分桶，这样可以实现更精细的数据管理和更极致的查询优化。

示例：先按日期分区，再按用户ID分桶

CREATE TABLE user_events (
    event_id BIGINT,
    user_id BIGINT,
    event_type STRING,
    ...
)
PARTITIONED BY (dt STRING)
CLUSTERED BY (user_id) INTO 32 BUCKETS
STORED AS ORC;