Hive-3 分区和分桶

最新推荐文章于 2023-11-16 10:39:42 发布

原创

最新推荐文章于 2023-11-16 10:39:42 发布 · 609 阅读

0 ·

CC 4.0 BY-SA版权

本文详细介绍了Hive的分区和分桶概念，旨在提高数据处理效率。分区通过将大数据划分为小部分，便于快速分析。静态分区需手动指定分区字段值，而动态分区则能自动分配。分桶是对数据的进一步细化，相同属性值的数据会被放入相同桶中，有助于提高查询效率和实现更高效的采样。创建分桶表需开启相关属性并设置reduce个数，使用tablesample语句可以对分桶表进行抽样查询。

Hive分区

分区的目的：将大的数据分割成小数据，减少分析时的扫描量，提高效率。如：可以将数据按天分区，每天分析前一天的数据。
在这里插入图片描述

创建分区表语法
分区字段不能和表中字段重复

 create table score(s_id string, c_id string, s_score int) 
 partitioned by (month string) 
 row format delimited fields terminated by '\t';

创建一个表带多个分区

create table score2 (s_id string,c_id string, s_score int) 
partitioned by (year string, month string, day string) 
row format delimited fields terminated by '\t';

加载数据到分区表中去

load data local inpath '/hivedatas/score.csv' into table score 
partition (month='201806');;

加载数据到多分区表中去

load data local inpath '/hivedatas/score.csv' into table score2 partition(year='2018',

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

爱吃甜食_

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Hive之分区表(静态分区 / 动态分区)(4)

桂林算啦粉的博客

09-09

509

一为什么表数据要分区管理 1 hive 中的数据是存储在对应的表的目录下的 2 查询数据的时候加载目录下的所有的文件 ,where 筛选过滤 3 日志数据可能每天都会有所增加,每天都有大量的文件 ,如每天的操作数据 ; 2018-09-02.log..... 2018-09-01.log..... 2018-08-31.log..... 4 为了对数据进行更好的管理,也为了在查询的时候增加查询速度,增加查询效率 ,需要对日志数据进行分区处理 ,也就是让静态文件根据一定的规...

大数据Hive--分区表和分桶表

xd__xy的博客

02-25

2396

再比如，若分区表为外部表，用户执行drop partition命令后，分区元数据会被删除，而HDFS的分区路径不会被删除，同样会导致Hive的元数据和HDFS的分区路径不一致。对于一张表或者分区，Hive 可以进一步组织成桶，也就是更为细粒度的数据范围划分，分区针对的是数据的存储路径，分桶针对的是数据文件。分桶表的基本原理是，首先为每行数据计算一个指定字段的数据的hash值，然后模以一个指定的分桶数，最后将取模运算结果相同的行，写入同一个文件中，这个文件就称为一个分桶（bucket）。

参与评论您还未登录，请先登录后发表或查看评论

将hive三级分区表中指定某一级分区的数据，全部导入一张新表的操作

攻城狮Kevin

06-03

1864

需求场景：hive原始表tbl1，三级分区分别是dt、hour、proj_id，现在要求将dt=‘20180305’下的所有数据导入一张新表tbl2 操作如下：一、创建新表tbl2 create table tbl2 like tbl1; 二、开启动态分区，指定资源队列 set mapreduce.job.queuename=root.offline.hdp_teu_dpd.nor...

Hive知识分享三-（分区表）

zhikanjiani的博客

07-03

330

对于离线批处理的方式，如何把数据插入进hive表；案例：传统关系型数据库的BI人员转大数据，表里面差一列，使用insert插入，就会导致一大堆的小文件。hive支持insert，只支持一条一条记录插入。不建议采用hdfs上下载表的方式，可以采用sqoop. 一、分区表（partition table） eg.每个用户进行的每一个操作都有操作日志，便于追踪；我们拨打10086，点击1、2、3会跳转不...

学习Hive(三)Hive参数、动态分区、分桶

赵俊杰

09-04

1089

一、Hive变量 1、以，hive --service metastore 开启服务时：hive --hiveconfhive.cli.print.header=true;开启服务端。通过设置这个参数（临时参数，此方法当前进程有效，配置文件修改永久有效）开启。效果： 2、也可以在正常进入客户端后，使用set设置：效果同上。 3、客户端参数初始化：在家目录下 .hiver...

Hive内部表和外部表

主要分享大数据相关的知识，如Spark、Hudi

12-05

2152

我的原创地址：https://dongkelun.com/2018/12/03/hiveInternalAndExternalTables/ 前言总结一下Hive的内部表和外部表以及两者的区别。 1、建表语句 1.1 内部表平时创建的普通表为内部表 create table `test_internal` ( id string comment 'ID', name string comme...

hive-3.1.2.rar

最新发布

10-10

Hive的数据模型包括表、分区和桶等概念，这使得数据可以按照逻辑结构组织和管理。Hive还支持对数据进行索引，以便于快速访问特定的数据子集。 Hive的元数据存储在RDBMS中，通常是MySQL或者Derby数据库。元数据记录...

05--Hive的动态分区和分桶1

08-03

【Hive动态分区和分桶详解】动态分区和分桶是Hive中两种重要的数据组织方式，它们分别针对数据的存储优化和查询效率提升。在Hive中，动态分区允许我们在插入数据时不确定所有分区键的值，而分桶则是通过对特定列的...

hive -- 分区，分桶(创建，修改，删除)

Loneliness Ends HUHU

07-09

618

hive -- 分区，分桶(创建，修改，删除) hive -- 分区，分桶(创建，修改，删除)分区：静态创建分区： 1. 数据：john doe 10000.0 mary smith 8000.0 todd jones 7000.0 boss man 20000.0 ...

hive的分桶

maxiaoji的博客

04-01

175

一.总结　　分桶是相对分区进行更细粒度的划分。分桶将整个数据内容安装某列属性值得hash值进行区分，如要安装name属性分为3个桶，就是对name属性值的hash值对3取摸，按照取模结果对数据分桶。如取模结果为0的数据记录存放到一个文件，取模为1的数据存放到一个文件，取模为2的数据存放到一个文件。几个桶就是几个文件. 二.用途　　在分区数量过于庞大，就会有海量的目录建立，以至于可能导...

Hive3创建分桶表并加载数据

FlatTiger的博客

02-20

306

创建分桶表 create table stu_buk( id int, name string ) clustered by (id) into 4 buckets row format delimited fields terminated by '\t'; 数据插入 load data local inpath '/opt/module/hive/datas/student.txt' into table stu_buk;

hive外部表改为内部表_Hive内部表和外部表

weixin_39809584的博客

12-22

1008

前言总结一下Hive的内部表和外部表以及两者的区别。1、建表语句1.1 内部表平时创建的普通表为内部表createtable`test_internal`(idstringcomment'ID',namestringcomment'名字')comment'测试内部表'ROWFORMATDELIMITEDFIELDSTERMINATEDBY',';外部表带exter...

Hive3分区表和分桶表的区别及应用场景

FlatTiger的博客

02-20

1259

区别建表时不同：创建表时分区字段不能直接写在表结构中，通过指定分区字段和类型的方式成为表结构；分桶表的字段必须写在表结构中，再指定分桶字段。 -- 创建分区表 create table stu_par3( id int, name string ) partitioned by (class string) row format delimited fields terminated by '\t'; -- 创建分桶表 create table stu_buk( id int, name strin

09-hive中的分区表

xixihaha_coder的博客

11-09

3041

hive中的分区表为什么分区 Hive的Select查询时，一般会扫描整个表内容。随着系统运行的时间越来越长，表的数据量越来越大，而hive查询做全表扫描，会消耗很多时间，降低效率。而有时候，我们需求的数据只需要扫描表中的一部分数据即可。这样，hive在建表时引入了partition概念。即在建表时，将整个表存储在不同的子目录中，每一个子目录对应一个分区。在查询时，我们就可以指定分区查询，避免了hive做全表扫描,从而提高查询效率。如何分区根据业务需求而定,不过通常以年、月、日、小

Hive分区

hyj

03-19

8066

Hive分区应用实战

Hive分区分桶表和复杂类型

m0_73500885的博客

11-16

205

Hive分区表和分桶表的创建，分区分桶表的区别，Hadoop_hive官方文档链接，Hive复杂类型，array类型，struct类型，map类型

hive多级分区表的使用

张俊杰的博客

09-23

5369

简介一个分区字段就是一级目录,如果是两个分区,就是两个分区目录,比如说 area province,那么目录就是 /area/province/xxxxxx ,数据都在xxxxxx这里. 创建表二级分区使用方式就是在一级分区基础上 PARTITIONED BY后面多写个字段即可 create table order_multi_partition ( order_no string, order_time string ) PARTITIONED BY (event_ti

hive 分区表创建

热门推荐

qq_45602114的博客

08-18

2万+

为了对表进行合理的管理以及提高查询效率，Hive可以将表组织成“分区”。一个分区实际上就是表下的一个目录，一个表可以在多个维度上进行分区，分区之间的关系就是目录树的关系。 1、创建分区表通过PARTITIONED BY子句指定，分区的顺序决定了谁是父目录，谁是子目录。创建有一个分区的分区表： CREATE TABLE IF NOT EXISTS part_test( c1 string ,c2 string ,c3 string ,c4 string )P

Hive分区介绍

weixin_42232931的博客

03-12

5765

1.1 分区简介 1.1.1 为什么分区 Hive的Select查询时，一般会扫描整个表内容。随着系统运行的时间越来越长，表的数据量越来越大，而hive查询做全表扫描，会消耗很多时间，降低效率。而有时候，我们需求的数据只需要扫描表中的一部分数据即可。这样，hive在建表时引入了partition概念。即在建表时，将整个表存储在不同的子目录中，每一个子目录对应一个分区。在查询时，我们就可以指定分区查询，避免了hive做全表扫描，从而提高查询效率。 1.1.2 如何分区根据业务需求而定，不过通常以年、月、日

hive -- 桶表分桶表

04-03

### Hive 分桶表的概念及使用方法 #### 什么是分桶表？ Hive 中的分桶表是一种用于组织数据的技术，它通过对指定列的值进行哈希运算，并将其分配到不同的桶中。这种技术有助于提升查询性能，尤其是在大规模数据集上执行连接操作时[^1]。 #### 创建分桶表要创建一个分桶表，需要在 `CREATE TABLE` 语句中定义 `CLUSTERED BY` 子句。以下是创建分桶表的基本语法： ```sql CREATE TABLE bucketed_table ( id INT, name STRING, value DOUBLE ) CLUSTERED BY (id) INTO 32 BUCKETS; ``` 上述代码片段展示了如何创建一张名为 `bucketed_table` 的分桶表，其中 `id` 列被用来作为分桶依据，整个表会被分为 32 个桶[^3]。 #### 填充分桶表为了使分桶生效，在向分桶表插入数据时，必须启用动态分桶功能并设置相应的参数。以下是一些常用的配置项及其含义： - `set hive.enforce.bucketing = true;`: 启用强制分桶模式。 - `SET hive.exec.dynamic.partition.mode=nonstrict;`: 设置动态分区模式为非严格模式（如果涉及分区）。下面是一个完整的示例，展示如何将数据写入分桶表： ```sql -- 开启分桶支持 SET hive.enforce.bucketing = true; -- 插入数据到分桶表 INSERT OVERWRITE TABLE bucketed_table SELECT * FROM source_table DISTRIBUTE BY id; ``` 在此过程中，`DISTRIBUTE BY` 关键字确保每一条记录按照 `id` 列的值均匀分布到各个桶中。 #### 查询优化当两张已经分好桶的表按相同的分桶字段（如 `id` 字段）进行 JOIN 操作时，无需再对整张表做笛卡尔积，从而显著减少计算量和资源消耗[^2]。 #### 抽样查询除了常规查询外，还可以通过抽样的方式访问部分桶的内容。例如，假设某表有 64 个桶，则可以通过如下 SQL 获取第 3 个桶的数据样本： ```sql SELECT * FROM bucketed_table TABLESAMPLE(BUCKET 3 OUT OF 32); ``` 这里需要注意的是，实际抽取的具体桶号取决于表达式的逻辑关系[^4]。 #### Spark 集成对于更复杂的分析需求，可借助 Apache Spark 来读取 Hive 分桶表并实施高效的无 shuffle Join 操作。这通常涉及到调整 Spark 应用程序的相关属性以匹配底层存储结构[^5]。 ---