使用Spark读取Hive分桶表并进行无shuffle join的编程

最新推荐文章于 2025-10-05 15:40:22 发布

纸飞机的轨迹

最新推荐文章于 2025-10-05 15:40:22 发布

阅读量329

点赞数

CC 4.0 BY-SA版权

文章标签： spark hive 大数据编程

本文链接：https://blog.youkuaiyun.com/DevWizard/article/details/133194512

编程专栏收录该内容

410 篇文章 ¥29.90 ¥99.00

订阅专栏

本文介绍了如何使用Spark读取Hive的分桶表，并通过无shuffle join进行高效的数据处理。首先创建SparkSession启用Hive支持，然后读取分桶表转化为DataFrame，注册为临时表。接着，通过JOIN操作实现无shuffle join，利用共同列作为连接键，提高处理速度。最后展示查询结果并关闭SparkSession。

在大数据处理中，Spark是一个非常强大的分布式计算框架，而Hive是一个基于Hadoop的数据仓库工具。当我们需要对Hive中的分桶表进行处理时，可以利用Spark提供的API来读取和处理这些表。在本文中，我们将讨论如何使用Spark读取Hive分桶表，并通过无shuffle join的方式进行数据处理。

分桶表是Hive中一种特殊的表结构，它将数据按照某个列的哈希值进行分桶存储。这种分桶方式可以提高查询效率，特别是在进行连接操作时。而无shuffle join是指在连接操作时，不需要进行数据的重新分配和洗牌操作，从而提高了处理速度。

下面是使用Spark读取Hive分桶表并进行无shuffle join的代码示例：

import org.apache.spark.sql.SparkSession

object HiveBucketTableProcessing {
   
   
  d

了解本专栏

订阅专栏解锁全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

纸飞机的轨迹

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

订阅专栏

spark 读取hive分桶表无shuffle join

yy的博客

04-20

887

- 分桶join bucketjoin hive分桶 spark分桶分桶优化分桶join优化。

Spark与Hive的数据分区与分桶策略详解

AI天才研究院

05-22

1585

1. 背景介绍 1.1 大数据时代的数据处理挑战随着互联网、物联网、移动互联网等技术的飞速发展，全球数据量呈现爆炸式增长，大数据时代已经来临。海量数据的存储、管理和分析成为企业面临的巨大挑战。如何高效地处理和利用这些数据，从中提取有价值的信息，已成为当务之急。

参与评论您还未登录，请先登录后发表或查看评论

Spark 读写Hive分桶表

嘻哈吼嘿呵的博客

10-22

2478

I have a number of tables (with 100 million-ish rows) that are stored as external Hive tables using Parquet format. The Spark job needs to join several of them together, using a single column, with...

如何在 Spark SQL 中进行表的分区和分桶？两者的区别是什么？

最新发布

weixin_45422672的博客

10-05

1155

Spark SQL中的分区和分桶是优化数据管理的两种关键技术。分区通过列值将数据物理分割到不同目录，适合范围查询和低基数列，语法包括单级/多级分区创建和动态分区插入。分桶则通过哈希函数将数据均匀分布到固定数量文件中，适合等值查询和JOIN优化。两者核心区别在于：分区按列值划分目录，文件数量可变；分桶固定文件数，数据均匀分布。实际应用中可单独使用或组合使用，如时间序列数据适合分区，用户关联查询适合分桶。最佳实践建议选择低基数列分区，避免过度分区导致小文件问题。

Spark SQL 分桶表在字节跳动的优化

过往记忆大数据

09-24

3552

本文来自 SPARK + AI SUMMIT 2020北美会议，分享者来自字节跳动的郭俊。Bucket 在 Hive 和 Spark SQL 中普遍使用，用于消除 Join 或者 gr...

Spark 大表之间的join

u012450976的专栏

05-23

6378

最近在处理两份大表之间的join优化。表1 数据量是 8.1G 表2 数据量是 24.1G spark.sql.shuffle.partitions 800 5个Executor，每个Executor 10G内存，每个Executor CPU的cores是 4 制定了3中优化措施。 1:表2 直接 left join 表1. 2:表2 union 表1 ，然后groupBy ...

spark sql读写hive的过程

chanyue123的博客

01-17

9070

Spark sql读写hive需要hive相关的配置，所以一般将hive-site.xml文件放到spark的conf目录下。代码调用都是简单的，关键是源码分析过程，spark是如何与hive交互的。 1. 代码调用读取hive代码

Spark Bucket Table Join

半日闲的博客

05-12

1335

生成Bucket表创建Bucket表方式一 spark.sql("DROP TABLE IF EXISTS user1_bucket") spark.sql("DROP TABLE IF EXISTS user2_bucket") val r = new scala.util.Random() val df = spark.range(1, 100).map(i => (i, s"wankun-${r.nextInt(100)}")).toDF("id", "name") df.write.

Hive 表 /spark表（纯SQL）

zhixingheyi_tian的博客

11-17

654

分区提供了一个隔离数据和优化查询的可行方案，但是并非所有的数据集都可以形成合理的分区，分区的数量也不是越多越好，过多的分区条件可能会导致很多分区上没有数据。当调用 HashMap 的 put() 方法存储数据时，程序会先对 key 值调用 hashCode() 方法计算出 hashcode，然后对数组长度取模计算出 index，最后将数据存储在数组 index 位置的链表上，链表达到一定阈值后会转换为红黑树 (JDK1.8+)。分区为 HDFS 上表目录的子目录，数据按照分区存储在子目录中。

大数据开发之Spark篇----join的不同情况讨论(避免shuffle)

weixin_39702831的博客

11-14

1573

Join如何避免shuffle 在我们使用Spark对数据进行处理的时候最让人头疼的就是业务上复杂的逻辑，而这些逻辑往往不是map算子就能解决的，不是aggragate就是join操作，而这些操作又伴随着shuffle极大地影响了程序执行过程的性能开销。今天我们来讨论下在使用join的时候如何避免shuffle的发生。一般我们直接使用join的时候都是触发commen join，这种join操作...

Spark SQL优化之路——Hive篇

Christopher_L1n的博客

10-31

5393

Spark SQL针对Hive数据源的优化指南。

Spark性能调优案例-多表join优化，减少shuffle

u014034497的专栏

11-12

2381

A任务在凌晨1点到3点，平均耗时1h,且是核心公共任务，急需优化。

大数据框架之Hive：第10章分区表和分桶表

yiluohan0307的专栏

03-14

1088

对于一张表或者分区，Hive 可以进一步组织成桶，也就是更为细粒度的数据范围划分，分区针对的是数据的存储路径，分桶针对的是数据文件。分桶表的基本原理是，首先为每行数据计算一个指定字段的数据的hash值，然后模以一个指定的分桶数，最后将取模运算结果相同的行，写入同一个文件中，这个文件就称为一个分桶（bucket）。答案是二级分区表，例如可以在按天分区的基础上，再对每天的数据按小时进行分区。命令后，分区元数据会被删除，而HDFS的分区路径不会被删除，同样会导致Hive的元数据和HDFS的分区路径不一致。

Spark 中的分桶分化

一群专业码农的笔记本

04-22

2827

是 Spark 和 Hive 中用于优化任务性能的一种技术。在分桶桶（）中确定数据分区并防止数据混洗。根据一个或多个分桶列的值，将数据分配给预定义数量的桶。

SQL（hive和spark SQL）join的实现方式

ChengkunCutting的博客

07-08

602

SQL hive 在map端join mapJoin的主要意思就是，当链接的两个表是一个比较小的表和一个特别大的表的时候，我们把比较小的table直接放到内存中去，然后再对比较大的表格进行map操作。join就发生在map操作的时候，每当扫描一个大的table中的数据，就要去去查看小表的数据，哪条与之相符，继而进行连接。这里的join并不会涉及reduce操作。map端join的优势就是在于没有shuffle。 common join common join也叫做shuffle join，reduc

Spark原理篇之SparkSQL Join分析

huahuaxiaoshao的博客

06-08

1979

1 Join背景 Join是数据库查询永远绕不开的话题，传统查询SQL技术可以分为简单操作（过滤操作-where、排序操作-sort by），聚合操作-groupby以及join操作等。其中join操作是最复杂的、代价最大的操作模型，也是OLAP场景中使用相对较多的操作。因此很有必要对其进行深入研究。 ...

Spark SQL详解

微步的博客

09-26

3838

转自：https://mp.weixin.qq.com/s/SGhYBxGd5qCVfeM70DRFTw 发家史熟悉spark sql的都知道，spark sql是从shark发展而来。Shark为了实现Hive兼容，在HQL方面重用了Hive中HQL的解析、逻辑执行计划翻译、执行计划优化等逻辑，可以近似认为仅将物理执行计划从MR作业替换成了Spark作业（辅以内存列式存储等各种和Hive关...

SparkSql（2）

qq_51536995的博客

09-22

432

7.分区，分桶，排序分区是按某个字段以目录级别划分分桶是按某个字段以文件级别划分排序是按照某个字段在文件内部(每个桶)有序注意：如果使用分桶和排序，必须使用持久化表如果数据的数量较小，有的达不到设置的分桶数 def bps(spark:SparkSession)={ import spark.implicits._ val bpsDF=spark.read.load("D://work/path") bpsDF.write .partition

一文讲透Spark中的分区和分桶的不同

程研板的博客

04-03

3611

目录一.数据准备二.Spark Core中的分区三.Spark SQL中的分区和分桶（用HQL）一.数据准备 partition.txt: b,2 c,1 b,1 d,3 a,2 b,1 二.Spark Core中的分区 val rdd = sc.textFile("D:\\study\\workspace\\spark-sql-train\\input\\partition.txt") .map(_.split(",")).map(x => (x(0), x(1))) rdd.saveAs

hive -- 桶表分桶表

04-03

### Hive 分桶表的概念及使用方法 #### 什么是分桶表？ Hive 中的分桶表是一种用于组织数据的技术，它通过对指定列的值进行哈希运算，并将其分配到不同的桶中。这种技术有助于提升查询性能，尤其是在大规模数据集上执行连接操作时[^1]。 #### 创建分桶表要创建一个分桶表，需要在 `CREATE TABLE` 语句中定义 `CLUSTERED BY` 子句。以下是创建分桶表的基本语法： ```sql CREATE TABLE bucketed_table ( id INT, name STRING, value DOUBLE ) CLUSTERED BY (id) INTO 32 BUCKETS; ``` 上述代码片段展示了如何创建一张名为 `bucketed_table` 的分桶表，其中 `id` 列被用来作为分桶依据，整个表会被分为 32 个桶[^3]。 #### 填充分桶表为了使分桶生效，在向分桶表插入数据时，必须启用动态分桶功能并设置相应的参数。以下是一些常用的配置项及其含义： - `set hive.enforce.bucketing = true;`: 启用强制分桶模式。 - `SET hive.exec.dynamic.partition.mode=nonstrict;`: 设置动态分区模式为非严格模式（如果涉及分区）。下面是一个完整的示例，展示如何将数据写入分桶表： ```sql -- 开启分桶支持 SET hive.enforce.bucketing = true; -- 插入数据到分桶表 INSERT OVERWRITE TABLE bucketed_table SELECT * FROM source_table DISTRIBUTE BY id; ``` 在此过程中，`DISTRIBUTE BY` 关键字确保每一条记录按照 `id` 列的值均匀分布到各个桶中。 #### 查询优化当两张已经分好桶的表按相同的分桶字段（如 `id` 字段）进行 JOIN 操作时，无需再对整张表做笛卡尔积，从而显著减少计算量和资源消耗[^2]。 #### 抽样查询除了常规查询外，还可以通过抽样的方式访问部分桶的内容。例如，假设某表有 64 个桶，则可以通过如下 SQL 获取第 3 个桶的数据样本： ```sql SELECT * FROM bucketed_table TABLESAMPLE(BUCKET 3 OUT OF 32); ``` 这里需要注意的是，实际抽取的具体桶号取决于表达式的逻辑关系[^4]。 #### Spark 集成对于更复杂的分析需求，可借助 Apache Spark 来读取 Hive 分桶表并实施高效的无 shuffle Join 操作。这通常涉及到调整 Spark 应用程序的相关属性以匹配底层存储结构[^5]。 ---