spark-sql join原理

最新推荐文章于 2025-10-05 13:12:09 发布

原创最新推荐文章于 2025-10-05 13:12:09 发布 · 427 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#spark #sql #大数据

spark 专栏收录该内容

9 篇文章

订阅专栏

一、Hash Join

场景：对于输入的两张小表进行单机的join运算。

原理：两张表中相对小的一张表作为Hash表加载到内存中，另外一张表作为探测表，循环去Hash表中探测匹配。

二、Broadcast Hash Join

Hash Join在分布式场景下的一种实现。

场景：对于输入的两张表，一张大表，一张小表（小于10M）

原理：将小表广播分发到另一张大表所在的分区节点上，分别并发地与其上的分区记录进行hash join。

三、Shuffle Hash Join

Hash Join在分布式场景下的一种实现。

场景：对于输入的两张表，一张大表，一张小表（大于10M）

原理：根据join key将两张表分别按照join key进行重新组织分区，这样将join分而治之，划分为很多小join，充分利用集群资源并行化。

四、Sort Merge Join

场景：对于输入的两张大表，进行join运算。

原理：

1、shuffle阶段：将两张大表根据join key进行重新分区，两张表数据会分布到整个集群，以便分布式并行处理。

2、sort阶段：对单个分区节点的两表数据，分别进行排序。

3、merge阶段：对排号序的两张分区表数据执行join操作。join操作很简单，分别遍历两个有序序列，碰到相同join key就merge输出，否则去更小的一边。

注：Sort Merge Join于spark的shuffle实现算法想匹配，因此在应该shuffle之后partition数据都是按key排序的。因此理论上可以认为经过shuffle之后是不需要sort的，可以直接merge。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Wang Zhuoqun

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Spark-SQL 之 join 类型

zhixingheyi_tian的博客

05-31

943

Shuffle Hash Join 启用 Shuffle Hash Join 必须满足以下几个条件：仅支持等值 Join，不要求参与 Join 的 Keys 可排序； spark.sql.join.preferSortMergeJoin 参数必须设置为 false，参数是从 Spark 2.0.0 版本引入的，默认值为 true，也就是默认情况下选择 Sort Merge Join；小表的大小（plan.stats.sizeInBytes）必须小于 spark.sql.autoBroadcastJoi

spark-SQL-Transform

互联网知识分享

05-15

411

如果代码计算的结果不输出到数据库，比如输出离线文件excel，而且需要中文含义的字段，可以用 DF.withColumnRenamed("name",姓名)。当数据涉及的字段里是个数组或集合等情况下(这种情况一般是发生在noSQL数据库或json格式的数据)，可以使用下面的操作来提取数据。不同的两个表的不同字段的连接，以studnetDS("字段1")===courseDS("字段2")为判断条件。如果这个字段里面是的值是：值是数组就用索引提取、值是Map就用key提取、值是Struct就用字段提取。

参与评论您还未登录，请先登录后发表或查看评论

SparkSQL之Join原理

Magician的博客

04-02

5108

文章目录前言：Join背景介绍Join常见分类以及基本实现机制Hash JoinBroadcast Hash JoinShuffle Hash JoinSort-Merge Join总结前言：写SQL的时候很多时候都有用到join语句，但是我们真的有仔细想过数据在join的过程到底是怎么样的吗？今天借这位大神的文章来交接下sql中join的原理。同样，如有冒犯，请联系。 Join背景介绍 Jo...

Spark SQL Join实现原理

cl2010abc的专栏

08-27

1009

参考 https://www.cnblogs.com/duodushuduokanbao/p/9911256.html

面试必问：SQL 多表查询 JOIN 的底层原理

最新发布

weixin_44118965的博客

10-05

515

很多人能写出 INNER JOIN、LEFT JOIN，但面试官更关心你是否理解数据库执行 JOIN 的方式。JOIN 的本质就是把两张表的数据进行组合，然后根据条件（ON 子句）筛选出符合的行。4. FULL JOIN（部分数据库支持）：保留两边所有数据，没匹配的部分补 NULL。3. RIGHT JOIN：与 LEFT JOIN 相反，保留右表所有数据。会写 JOIN 是入门，懂 JOIN 的底层原理才是进阶。JOIN 本质是两张表的行组合，然后按条件过滤。

sparkSql join 关联机制

fanghailiang2016的博客

04-13

1376

Join 有 3 种实现机制，分别是 NLJ（Nested Loop Join）、SMJ（Sort Merge Join）和 HJ（Hash Join）

Spark SQL 之 Join原理

weixin_42868529的博客

02-26

478

Spark SQL 之 Join 实现 Spark SQL 之 Join 实现涂小刚 2017-07-19 217标签： spark ，数据库 Join作为SQL中一个重要语法特性，几乎所有稍微复杂一点的数据分析场景都离不开Join，如今Spark SQL(Dataset/DataFrame)已经成为Spark应用程序开发的主流，作为开发者，我们有必要了解Join在Spark中是如何组织运行的...

SQL 算法：浅谈数据库Join的实现原理

weixin_30337157的博客

06-12

286

Join的实现算法有三种，分别是Nested Loops Join, Merge Join, Hash Join。 DB2、SQL Server和Oracle都是使用这三种方式，不过Oracle选择使用nested loop的条件跟SQL Server有点差别，内存管理机制跟SQL Server不一样，因此查看执行计划，Oracle中nested loops运用非常多，而merge和hash方式...

Spark-SQL详解

别下完这场雪

06-09

1946

前言在没有sparkSql之前，进行数据分析一般通过MR，SQL 但是MR运行慢，操作较为复杂，即效率比较低。 SQL运行速度较快，操作也方便。但是面向的是关系型数据库，并不适合大数据开发模仿SQL–>HIVE HIVE是将HIVE SQL 转换成MapReduce然后提交到集群上执行，虽然简化了Mapredece程序复杂性，但是由于MapReduce计算模型自身限制，速度并不是很快 spark模仿hive，自己形成了SparkSQL，将Spark SQL 转化为RDD，然后提交到集群执行，执行

大数据Spark之详细解读Spark-Sql

qq_46060451的博客

12-13

875

Spark Sql 简介 Shark Shark 是基于 Spark 计算框架之上且兼容 Hive 语法的 SQL 执行引擎，由于底层的计算采用了 Spark ，性能比 MapReduce 的 Hive 普遍快2倍以上，当数据全部加载在内存的话，将快10倍以上，因此 Shark 可以作为交互式查询应用服务来使用。除了基于 Spark 的特性外， Shark 是完全兼容 Hive 的语法，表结构以及 UDF 函数等，已有的 Hive Sql 可以直接进行迁移至 Shark 上 Shark 底层依赖于 Hi

SQL的JOIN语法解析(inner join, left join, right join, full outer join的区别)

勇敢的心的网络笔记

08-25

706

总的来说，四种JOIN的使用/区别可以描述为: left join 会从左表(shop)那里返回所有的记录，即使在右表(sale_detail)中没有匹配的行。 right outer join 右连接，返回右表中的所有记录，即使在左表中没有记录与它匹配 full outer join 全连接，返回左右表中的所有记录在表中存在至少一个匹配时，inner join 返回行。关键字in

深入剖析SQL JOIN原理，助你掌握数据连接的奥秘！

孤芳不自赏

06-06

1005

这篇文章你值得一阅！讲技术我觉得应该让外行也能看明白，而不是一堆专业术语堆砌，像在读天书一般，到最后感觉云里雾里。

sql语句优化：join的原理与索引注意事项

Joy_B的博客

07-31

9205

之所以写这篇文章，是因为在一次项目中后台的一条长sql执行的非常慢，通过explain sql发现join时一种一张表没有走索引，所以为了解决这个问题研究了join的原理和join索引的使用规则。 ...

Spark--一文了解SparkSql的Join策略

qq_46893497的博客

03-19

1883

Join连接是大数据处理的重要手段，它基于表之间的共同字段将来自两个或多个表的行结合起来。但是我们真的了解join吗？join都有哪些，是怎么实现的?

SQL原理之Join算法详解(含伪代码算法示例)

道可道非常道

04-03

1827

在实际应用中，Sort Merge Join算法适用于连接的两个表都比较大且已经按照连接键有序排列的情况，因为它可以在一次遍历的过程中完成连接操作，效率相对较高。Sort Merge Join算法的时间复杂度取决于排序操作和合并操作的复杂度，通常为O(n log n)，其中n为连接的两个表的总行数之和。Hash Join算法的时间复杂度通常为O(n)，其中n为参与连接的两个表的总行数之和，因为构建哈希表和进行哈希连接的过程都是线性的。对于左表的每一行，在右表中进行遍历，找到满足连接条件的行。

sql join、group by原理

wangjun5159的专栏

09-12

4756

今天遇到一问题，再次加深了，join结果就是笛卡尔积，这个原理的认识。join 原理sql以下边的sql为例，假设有a、b两张表select * from user a,age_info b a表的第一条记录首先拿a表的第一条记录，去匹配b表的第一条记录，由于没有过滤条件，匹配，所以加入结果集第一条记录就是然后，再匹配b表的第二条记录，没有过滤条件，所以匹配，匹配，所以加入结果集第二条记录就

浅谈数据库Join的实现原理

chiran9291的博客

01-08

691

MSQL系列(九) Mysql实战-Join算法底层原理

流浪的喵的博客

10-26

902

不再是每条每条的取，而是每次都从驱动表每次取一批数据，放到内存中，然后对这一批数据进行匹配操作，当数据操作匹配完毕，就再次从驱动表中取一批数据放到内存中，再次比较，直到数据匹配完毕，完成查询，这种方式就是。在Mysql的查询过程中，我们都知道涉及多表查询，我们都会使用join来连接多个表进行查询，join的本质就是循环每个表进行匹配，join算法可以分为三种形式。至此，我们彻底的了解了 join算法的底层原理，也明确直到了三种方法的优劣，有助于我们再分析索引的时候，更快的定位出问题，进行索引优化。

为什么一个sql语句通过spark-beeline查询成功，而spark-sql查询报错

08-12

<think>嗯，用户现在遇到了一个具体问题：同一个SQL语句在spark-beeline和spark-sql中执行结果不同。这确实是个值得深究的现象，因为理论上相同的引擎应该产出相同结果。用户可能正在排查数据差异问题，情绪上应该有些困惑甚至焦虑。从技术角度看，这个问题比表面更复杂。首先需要排除最基础的配置差异：比如用户是否在相同集群、相同数据源上测试？但用户既然能提出这个问题，应该已经排除了这些明显因素。那么核心矛盾可能隐藏在三个层面：执行环境差异是个关键点。spark-sql是直接嵌入SparkSession的本地模式，而beeline连接ThriftServer其实是远程执行。这里有个隐藏陷阱：ThriftServer默认会用自己的资源队列，可能和用户本地测试的资源配置不同。比如内存不足时某些聚合操作可能溢出到磁盘，导致精度差异。配置项优先级问题特别容易被忽视。Spark的配置加载顺序是：spark-defaults.conf < 命令行参数 < 代码设置。但ThriftServer启动时会固化配置，而spark-sql可能读取用户本地的$SPARK_HOME/conf。比如用户修改了spark.sql.shuffle.partitions但没重启ThriftServer，就会造成shuffle分区数不同。数据源解析差异更隐蔽。比如Hive表在beeline中可能通过Hive Metastore解析，而spark-sql可能启用spark.sql.catalogImplementation=in-memory。当表是视图(view)时，如果视图定义包含UDF，不同解析路径可能导致结果不同。有个经典案例是遇到时区敏感的函数如from_utc_timestamp。另外想到个边缘场景：当SQL包含rand()这类非确定性函数时，ThriftServer可能会启用statement级缓存（spark.sql.thriftServer.incrementalCollect=true），而spark-sql不会，这也会导致结果集顺序差异。用户可能需要具体线索来验证。建议从简单查询开始排除，比如先执行select 1+1，如果这个都不同就是环境故障了。然后逐步增加复杂度：加聚合函数→加join→加UDF。另外务必检查两个环境的spark.sql("set -v").show(100)输出。最后想到权限问题：beeline连接时可能走代理用户(通过hive.server2.proxy.user)，而spark-sql是直接用户。如果数据有行级过滤策略(Row Filter)，可能自动应用不同过滤条件。</think>同一个SQL语句在`spark-beeline`和`spark-sql`中执行结果不同，通常由以下核心原因导致。以下分析基于实际场景的排查经验，按优先级排序： --- ### 一、**配置差异导致执行计划不同**（最常见） Spark的优化器依赖配置参数生成执行计划，以下关键配置差异会直接影响结果： 1. **Hive Metastore 连接差异** - `spark-sql`：默认使用本地嵌入式Derby数据库（测试用），**不连接Hive Metastore** - `spark-beeline`：必须连接远程Hive Metastore（通过Thrift Server） **后果**：若表在Hive Metastore中定义，`spark-sql`可能读不到表或读到错误版本[^1]。 2. **关键优化参数不一致** 检查以下参数是否相同： ```sql -- 示例：检查动态分区配置 SET spark.sql.sources.partitionOverwriteMode; SET hive.exec.dynamic.partition.mode; ``` - 若`spark-sql`中`partitionOverwriteMode=dynamic`而`beeline`为`static`，覆盖分区时数据会差异[^2]。 3. **时区与格式配置** ```sql SET spark.sql.session.timeZone; -- 时区 SET spark.sql.legacy.timeParserPolicy; -- 时间解析策略 ``` - 时区不同会导致`FROM_UNIXTIME()`等函数结果偏移 - `LEGACY` vs `CORRECTED`模式对非法日期处理不同（如`2023-02-30`） --- ### 二、**数据源版本或路径不同** 1. **底层数据路径指向不同存储** - `spark-sql`：可能使用`file:///data`本地路径 - `spark-beeline`：通过Thrift Server访问HDFS（如`hdfs://cluster/data`） **验证方法**： ```sql DESCRIBE FORMATTED table_name; -- 检查Location字段 ``` 2. **数据更新延迟问题** - Thrift Server可能启用缓存（`spark.sql.thriftServer.cache.enabled=true`） - 直接`spark-sql`查询总是读取最新数据 --- ### 三、**权限与隔离机制** 1. **用户权限过滤** - 若集群启用Ranger/Sentry，`beeline`连接的用户可能自动触发行过滤 **示例**： ```sql SELECT * FROM sales; -- 用户A看到10行，用户B看到100行 ``` 2. **Session级别临时表隔离** - `spark-sql`创建的临时表仅在当前Session有效 - Thrift Server可能共享临时表（依赖`spark.sql.globalTempDatabase`配置） --- ### 四、**特定语法兼容性问题** 1. **Hive方言 vs Spark方言** 在`spark-sql`中启用Hive语法： ```sql SET spark.sql.dialect=hive; -- 默认是'spark' ``` - 差异点：如`LATERAL VIEW explode()`在两种方言解析不同 2. **UDF处理差异** - `spark-sql`自动加载`$SPARK_HOME/jars`中的UDF - Thrift Server需手动注册UDF： ```sql CREATE TEMPORARY FUNCTION my_udf AS 'com.xxx.UdfClass'; ``` --- ### 五、**排查步骤** 1. **收集环境信息** ```sql -- 在两者中执行 SET -v; -- 打印所有配置 SELECT version(); -- Spark版本 ``` 2. **验证简单查询** 从基础聚合开始排查： ```sql SELECT COUNT(1) FROM table; -- 先确认基数是否一致 ``` 3. **检查执行计划** ```sql EXPLAIN FORMATTED <SQL>; -- 对比两者逻辑计划 ``` 4. **隔离变量测试** - 步骤1：用`beeline`执行`spark-sql`的配置参数 - 步骤2：将`spark-sql`连接到Thrift Server（`spark-sql --jdbc hive2://...`） --- ### 典型场景示例 > **现象**：`WHERE dt='2023-01-01'`在`spark-sql`返回数据，在`beeline`中无数据 > **原因**： > - `spark-sql`配置：`spark.sql.legacy.timeParserPolicy=LEGACY`（容忍非法日期） > - `beeline`配置：`spark.sql.legacy.timeParserPolicy=CORRECTED`（严格模式） > **解决**：统一配置为`CORRECTED`并修复数据中的`2023-01-32`等非法值[^3]。 ---