Hive-分桶

最新推荐文章于 2020-08-22 22:01:34 发布

原创最新推荐文章于 2020-08-22 22:01:34 发布 · 192 阅读

0 ·

CC 4.0 BY-SA版权

大数据学习同时被 2 个专栏收录

57 篇文章

订阅专栏

Hive学习

42 篇文章

订阅专栏

分桶

单个分区或者表中的数据越来越大，分区不能细粒度的划分数据时，可以采用分桶去实现，
分桶是将数据集分解为更容易管理的若干部分的另一种技术

分桶的技术：

CLUSTERED BY (col_name, col_name, ...)
[SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS]

分桶的原理：

跟MR的hashpartitioner是一样的
MR中：key的hash值模上reduce数量
hive中：按照分桶字段的hash值模上分桶的个数
hive也是针对某一列进行桶的组织，hive采用对列值进行hash,然后模上分桶的个数求余数决定记录存放在哪儿个桶中

分桶的意义

1、为了保存分桶查询的分桶结构（数据已经按照分桶字段进行了hash散列）
2、分桶表进行抽样和join操作时可以提高MR的查询效率

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

ZhuangYQ丶

关注关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Hive-分桶表

bwf317的博客

12-01

566

分桶表分区表是将数据分文件夹管理 , 减少数据扫描的文件范围直接从对应文件夹中读取数据分桶表是对join 查询的优化将数据按照指定的字段的规则分文件数据： 1001 ss1 1002 ss2 1003 ss3 1004 ss4 1005 ss5 1006 ss6 1007 ss7 1008 ss8 1009 ss9 1010 ss10 1011 ss11 1012 ss12 1013 ss13 1014 ss14 1015 s

Hive--桶表

qq_41301707的博客

01-13

2096

目录1. 为什么要使用桶表？？？2. 桶表分桶规则3. 桶表的创建3.1 DLL3.2 数据3.3 DML3.4 查看桶表里面的数据3.5 临时表创建并加载数据3.6 把临时表的数据加载到桶表里面4. 桶表的查询4.1 桶表查询全表的数据4.2 桶表查看第一个桶里面的数据4.3 查看第二个桶里面的数据4.4 查看第三个桶里面的数据4.5 查看桶表固定行数据4.6 桶表查询语法4.7 其他查询5 桶表、分区表的区别6 两个桶表之间的Join6.1 year 桶表创建并加载数据6.2 两个桶表Join 1. 为

参与评论您还未登录，请先登录后发表或查看评论

Hive分桶

hyj

03-20

618

一、概念 1、定义对Hive(Inceptor)表分桶可以将表中记录按分桶键的哈希值分散进多个文件中，这些小文件称为桶。 2、为什么进行分桶（1）获得更高的查询处理效率。比如JOIN操作。对于JOIN操作两个表有一个相同的列，如果对这两个表都进行了桶操作。那么将保存相同列值的桶进行JOIN操作就可以，可以大大较少JOIN的数据量。（2）使取样（sampling）更高效。在处理大规模数...

Hive Hive中的数据分桶以及使用场景

最新发布

10-10

Hive的数据模型包括表、分区和桶等概念，这使得数据可以按照逻辑结构组织和管理。Hive还支持对数据进行索引，以便于快速访问特定的数据子集。 Hive的元数据存储在RDBMS中，通常是MySQL或者Derby数据库。元数据记录...

精选资源

apache-hive-3.1.3-bin.tar.gz

07-01

它还支持分区和桶化，以提高查询性能。Hive 对于大数据分析来说，是一个非常实用的工具，尤其适合离线批处理场景。不过，由于其基于 MapReduce，所以在实时查询或低延迟查询方面可能不如其他更现代的数据处理引擎如 ...

Hive的分桶详解

成都往右的博客

10-22

2051

Hive分桶通俗点来说就是将表（或者分区，也就是hdfs上的目录而真正的数据是存储在该目录下的文件）中文件分成几个文件去存储。比如表buck(目录，里面存放了某个文件如sz.data)文件中本来是1000000条数据，由于在处理大规模数据集时，在开发和修改查询的阶段，如果能在数据集的一小部分数据上试运行查询，会带来很多方便，所以我们可以分4个文件去存储。

Hive进行分区分桶

大数据同盟会的博客

08-22

6698

Hive分桶

hive详解（分区&分桶）

博客&brz

09-29

2万+

分区&amp;amp;amp;分桶分区为什么有分区？随着系统运行时间增长，表的数据量越来越大，而hive查询时通常是是全表扫描，这样将导致大量的不必要的数据扫描，从而大大减低查询效率。从而引进分区技术，使用分区技术，避免hive全表扫描，提升查询效率。可以将用户的整个表的数据在存储时划分到多个子目录，从而在查询时可以指定查询条件（子目录以分区变量的值来命名）eg:year=‘2018’。怎么分区？根...

hive 分桶

Java日常笔记精选的博客

12-17

443

CREATE [EXTERNAL] TABLE <table_name> (<col_name> <data_type> [, <col_name> <data_type> ...])] [PARTITIONED BY ...] CLUSTERED BY (<col_name>) ...

hive之union、union all的列名不统一的记录

iilegend的博客

06-22

1万+

在MySQL中，union和union all中，只需要列的数量对应，这样就可以完成union和union all操作。但是在hive中，我也是这样想的，于是，我并没有关注列名必须一致，只是关注了列数量一致，这样的话，其实也是可以的，比如： --不同渠道的目标客户量 select 'sources' as type,sources as type_detail,count(*) as c...

azkaban设置依赖，并且多个任务并行执行

iilegend的博客

06-27

1万+

在azkaban的任务调度中，设置依赖可以完成对任务的调度，脚本如下：第一个job：命名为 ods_actlog.job --- config: #failure.emails: xx@xx nodes: - name: ods_actlog_sql_job type: command config: command: sh ods_actl...

Hive的不等值连接

iilegend的博客

04-20

8389

hive的join语法仅支持等值连接，不支持非等值的连接 select * from a join b on a.id>b.id; 这种情况是不被允许的，直接报错。可以采取这种方法： select * from a join b on a.id=b.id; 或者： select * from a,b where a.id>b.id; ...

hive实现全自动动态分区

iilegend的博客

06-22

6409

我们在业务中往往会遇到一种情况就是：现有的业务已经有很多的数据堆积，并且需要根据现有的数据以分区的形式来建立数据仓库，这样的话就需要将表中的一个字段作为分区字段，以这个字段的值作为分区的依据。那么就需要动态分区进行处理：首先需要设置参数: -- 表示开启动态分区功能（默认false） set hive.exec.dynamic.partition =true --(默认st...

hive读取json数组并转换成多行（列转行）

iilegend的博客

03-03

5442

背景：在读取hive表中某一些字段的时候，有的json字符串其中会包括数组，那么想要读取这个数组并且转换为多行该怎么操作那？操作： 1、数据举例： ["[{\"pet_skill_avg_level\":0,\"pet_guard_star\":0,\"pet_type\":0,\"pet_step\":0,\"pet_skill_num\":0,\"pet_adv_score\":0,\"p...

hive -- 桶表分桶表

04-03

### Hive 分桶表的概念及使用方法 #### 什么是分桶表？ Hive 中的分桶表是一种用于组织数据的技术，它通过对指定列的值进行哈希运算，并将其分配到不同的桶中。这种技术有助于提升查询性能，尤其是在大规模数据集上执行连接操作时[^1]。 #### 创建分桶表要创建一个分桶表，需要在 `CREATE TABLE` 语句中定义 `CLUSTERED BY` 子句。以下是创建分桶表的基本语法： ```sql CREATE TABLE bucketed_table ( id INT, name STRING, value DOUBLE ) CLUSTERED BY (id) INTO 32 BUCKETS; ``` 上述代码片段展示了如何创建一张名为 `bucketed_table` 的分桶表，其中 `id` 列被用来作为分桶依据，整个表会被分为 32 个桶[^3]。 #### 填充分桶表为了使分桶生效，在向分桶表插入数据时，必须启用动态分桶功能并设置相应的参数。以下是一些常用的配置项及其含义： - `set hive.enforce.bucketing = true;`: 启用强制分桶模式。 - `SET hive.exec.dynamic.partition.mode=nonstrict;`: 设置动态分区模式为非严格模式（如果涉及分区）。下面是一个完整的示例，展示如何将数据写入分桶表： ```sql -- 开启分桶支持 SET hive.enforce.bucketing = true; -- 插入数据到分桶表 INSERT OVERWRITE TABLE bucketed_table SELECT * FROM source_table DISTRIBUTE BY id; ``` 在此过程中，`DISTRIBUTE BY` 关键字确保每一条记录按照 `id` 列的值均匀分布到各个桶中。 #### 查询优化当两张已经分好桶的表按相同的分桶字段（如 `id` 字段）进行 JOIN 操作时，无需再对整张表做笛卡尔积，从而显著减少计算量和资源消耗[^2]。 #### 抽样查询除了常规查询外，还可以通过抽样的方式访问部分桶的内容。例如，假设某表有 64 个桶，则可以通过如下 SQL 获取第 3 个桶的数据样本： ```sql SELECT * FROM bucketed_table TABLESAMPLE(BUCKET 3 OUT OF 32); ``` 这里需要注意的是，实际抽取的具体桶号取决于表达式的逻辑关系[^4]。 #### Spark 集成对于更复杂的分析需求，可借助 Apache Spark 来读取 Hive 分桶表并实施高效的无 shuffle Join 操作。这通常涉及到调整 Spark 应用程序的相关属性以匹配底层存储结构[^5]。 ---