Buckets On Hive

最新推荐文章于 2025-02-08 17:25:23 发布

原创最新推荐文章于 2025-02-08 17:25:23 发布 · 置顶 · 1.7k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#Hive

Big Data Storage 专栏收录该内容

37 篇文章

订阅专栏

本文介绍了Hive中的分区与分桶技术，这两种技术可以提升查询效率。分区是根据数据字段创建目录，而分桶则是依据字段在特定目录下创建文件，用于加速单表和关联查询。创建分桶的语法、实例以及相关配置参数如`hive.enforce.bucketing`和`mapreduce.job.reduces`进行了展示。分桶插入数据时，需要考虑数据预处理和插入方式。通过设置`hive.enforce.bucketing`，可以实现数据的正确分桶。

序言

分区与分桶都是为了提升Hive的查询效率.两者也可以同时存在.也可以独立存在.具体可以根据自己的业务情况进行选择,创建不同类型的表.

分区是根据数据某一个字段新建一个目录.以增加相同数据的查询效率.
分桶是根据数据的某一个字段,在分区或者根目录下创建一个文件,多少个文件就是分桶数.同样可以提升单表查询的效率,另外如果是关联查询,则也会提升关联查询的效率.因为根据关联字段查找对应的文件就行了.cuiyaonan2000@163.com

创建分桶

创建的语法如下:

CREATE [EXTERNAL] TABLE <table_name>
    (<col_name> <data_type> [, <col_name> <data_type> ...])]
    [PARTITIONED BY ...] 
    CLUSTERED BY (<col_name>) 
        [SORTED BY (<col_name> [ASC|DESC] [, <col_name> [ASC|DESC]...])] 
        
        INTO <num_buckets> BUCKETS  
        
    [ROW FORMAT <row_format>] 
    [STORED AS TEXTFILE|ORC|CSVFILE]
    [LOCATION '<file_path>']    
    [TBLPROPERTIES ('<property_name>'='<property_value>', ...)];

举例:


-- sorted by 桶内的数据排序,可以有多个
-- clustered by 根据哪一个字段进行分桶
-- Distribute by 如果分桶跟排序的字段不一样则使用它来分桶
-- 分桶只能是一个字段.
create table student(id int,name string,sex int)
clustered by(id) 
sorted by(id DESC)
into 4 buckets
row format delimited
fields terminated by ',';