Spark on Hive和Hive on Spark的区别

最新推荐文章于 2025-11-01 13:01:29 发布

原创最新推荐文章于 2025-11-01 13:01:29 发布 · 2.4k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#hive #spark #大数据

spark 专栏收录该内容

12 篇文章

订阅专栏

本文介绍了Spark如何通过SparkSQL与Hive进行整合，其中Hive仅作为数据存储，而SQL解析和优化由Spark负责。步骤包括加载Hive配置，获取元数据，以及使用SparkSQL操作Hive表。另外，提到了Hive on Spark的情况，即Hive的执行引擎变为Spark，但实现较为复杂，通常采用Spark on Hive的方式。

spark on hive :

    hive只作为存储角色，spark 负责sql解析优化，底层运行的还是sparkRDD

    具体可以理解为spark通过sparkSQL使用hive语句操作hive表，底层运行的还是sparkRDD，

    步骤如下：

            1.通过sparkSQL，加载Hive的配置文件，获取Hive的元数据信息

            2.获取到Hive的元数据信息之后可以拿到Hive表的数据

            3.通过sparkSQL来操作Hive表中的数据

hive on spark:

    hive既作为存储又负责sql的解析优化，spark负责执行

    这里Hive的执行引擎变成了spark，不再是MR。

    这个实现较为麻烦，必须重新编译spark并导入相关jar包

目前大部分使用spark on hive

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

zhangvalue

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

spark on hive 与 hive on spark 的区别

lukabruce的博客

10-17

680

1 Spark on Hive ：数据源是：hive Spark 获取hive中的数据，然后进行SparkSQL的操作（hive只是作为一个spark的数据源）； 2 Hive on Spark ：数据源是：hive本身 Hive将自己的MapReduce计算引擎替换为Spark，当我们执行HiveSQL(HQL)时底层以经不是将HQL转换为MapReduce...

Spark on Hive 和 Hive on Spark的区别与实现

Alex的博客

06-13

3983

Spark on Hive 是Hive只作为存储角色，Spark负责sql解析优化，执行。这里可以理解为Spark 通过Spark SQL 使用Hive 语句操作Hive表 ,底层运行的还是 Spark RDD。具体步骤如下：【总结】Spark使用Hive来提供表的metadata信息。Hive on Spark是Hive既作为存储又负责sql的解析优化，Spark负责执行。这里Hive的执行引擎变成了Spark，不再是MR，这个要实现比Spark on Hive麻烦很多, 必须重新编译你的spark和导入

1 条评论您还未登录，请先登录后发表或查看评论

黑猴子的家：Spark on hive 与 hive on spark 的区别

黑猴子的博客

06-07

582

1、spark on hive 是spark 通过Spark-SQL使用hive 语句，操作hive ,底层运行的还是 spark rdd. （1）就是通过sparksql，加载hive的配置文件，获取到hive的元数据信息（2）spark sql获取到hive的元数据信息之后就可以拿到hive的所有表的数据（3）接下来就可以通过spark sql来操作hive表中的数据 2、...

Hive Spark 引擎集成：Spark on Hive 与 Hive on Spark 的区别及性能对比

最新发布

2501_93928029的博客

11-01

488

在相同硬件条件下，Spark on Hive 在多数场景下性能优于 Hive on Spark，尤其在复杂分析($\text{JOIN} \geq 5$表)和迭代计算中差异显著。但Hive on Spark在保持Hive语法兼容性方面具有优势。典型TPC-DS测试中，Spark直接执行比Hive转译快约40%

spark on hive 和 hive on spark 的区别：

weixin_47869733的博客

04-01

2764

spark on hive : hive只作为存储角色，spark 负责sql解析优化，底层运行的还是sparkRDD 具体可以理解为spark通过sparkSQL使用hive语句操作hive表，底层运行的还是sparkRDD，步骤如下： 1.通过sparkSQL，加载Hive的配置文件，获取Hive的元数据信息 2.获取到Hive的元数据信息之后可以拿到Hive表的数据 ...

spark on hive & hive on spark的区别

xuehuagongzi000的博客

05-12

4043

Spark on Hive ：数据源是：hiveSpark 获取hive中的数据，然后进行SparkSQL的操作（hive只是作为一个spark的数据源）。 spark on hive : 是spark 通过spark-sql 使用hive 语句操作hive ,底层运行的还是 spark rdd. *（1）就是通过sparksql，加载hive的配置文件，获取到hive的元数据信息 * （2）spark sql获取到hive的元数据信息之后就可以拿到hive的所有表的数据 * （3）接下来就...

Spark on hive 与 Hive on spark 的区别

pwd

08-20

5183

读了百度上的一些关于Spark on hive 与 Hive on Spark 的区别的文章，感觉理解太复杂，自己总结一下 Spark on Hive ：数据源是：hive Spark 获取hive中的数据，然后进行SparkSQL的操作（hive只是作为一个spark的数据源）。 Hvie on Spark ：（数据源是hive本身） Hvie 将自己的MapReduce计算...

Spark on Hive 和 Hive on Spark

2401_84052244的博客

08-01

3364

Spark on Hive 和 Hive on Spark。前者由 Spark 社区主导，以 Spark 为主、Hive 为辅；后者则由 Hive 社区主导，以 Hive 为主、Spark 为辅。两类集成方式各有千秋，适用场景各有不同。在 Spark on Hive 这类集成方式中，Spark 主要是利用 Hive Metastore 来扩充数据源，从而降低分布式文件的管理与维护成本，如路径管理、分区管理、Schema 维护，等等。

Hive on Spark、Spark on Hive的异同

u011076848的专栏

06-06

1920

Hive-on-Spark 是在 Hive 上新增一种计算引擎：Spark目的：借助 Spark 内存计算引擎的优势，提升 Hive 查询性能（相较于默认执行引擎 MR）地位：Spark 和 Hive 原有的执行引擎 MR，Tez 平级，可互相替换益处：给已经部署了 Hive 或者 Spark 的用户提供了更加灵活的选择，从而进一步提高 Hive 和 Spark 的普及率定义：没有官方的 Spark on Hive 说法，属于大家习惯性称呼。

java spark on hive_Spark On Hive 部署和配置

weixin_29056781的博客

02-24

736

Spark On Hive，通过spark sql模块访问和使用Hive，默认Spark预编译(pre-built)版不包含hive相关依赖，并不支持此功能，因此需要对spark源码进行重新编译，并进行相关的配置，下面是具体操作步骤：1.下载最新版spark源码包cd/data/soft/wget-chttp://apache.fayea.com/spark/spark-1.5.2/spar...

【大数据学习 | Spark】Spark on hive与 hive on Spark的区别

2301_80912559的博客

11-27

1403

这种方式下，spark可以读取和写入hive表，利用hive的元数据信息来进行表结构的定义和管理。hive on Spark指的是将hive的默认的执行引擎MR换成Spark。sparkSQL使用hive的Metastore来获取表的元数据信息，这样可以在SparkSQL直接访问hive表。sparkSQL支持HiveQL的语法，使得用户可以使用熟悉的Hive查询语句在Spark上执行SQL查询。通过配置Hive使其使用Spark作为执行引擎，可以在不改变现有的Hive查询的情况下，显著提高查询性能。

Hive on Spark vs. Spark on Hive

youziguo的专栏

06-28

947

Hive on Spark 和 Spark on Hive 是两个不同的大数据处理架构，它们各自有不同的实现方式和应用场景。

Spark on Hive 和 Hive on Spark的区别

hzp666的博客

12-11

684

Spark on Hive : Hive只作为存储角色，Spark负责sql解析优化，执行。这里可以理解为Spark 通过Spark SQL 使用Hive 语句操作Hive表 ,底层运行的还是 Spark RDD。具体步骤如下：通过SparkSQL，加载Hive的配置文件，获取到Hive的元数据信息；获取到Hive的元数据信息之后可以拿到Hive表的数据；通过SparkSQL来操作Hive表中的数据。 Hive on Spark：Hive既作为存储又负责sql的解析优化，Spark负责执行。

Spark on Hive 和 Hive on Spark 的区别

weixin_45417821的博客

03-27

505

Spark on Hive : Hive只作为存储角色，Spark负责sql解析优化，执行。这里可以理解为Spark 通过Spark SQL 使用Hive 语句操作Hive表 ,底层运行的还是 Spark RDD。具体步骤如下：通过SparkSQL，加载Hive的配置文件，获取到Hive的元数据信息；获取到Hive的元数据信息之后可以拿到Hive表的数据；通过SparkSQL来操作Hive表中的数据。 Hive on Spark： Hive既作为存储又负责sql的解析优化，Spark负责执行。这里

区分 Hive on Spark 和 Spark on Hive

goTsHgo的博客

11-29

1747

Hive on Spark 是指使用 Spark 作为 Hive 的查询执行引擎。Spark on Hive 是 Spark 的一个集成模式，在 Spark 应用中可以直接访问 Hive 的元数据和存储数据。它使得 Spark 作业能够查询和操作 Hive 中的数据，主要用来结合 Spark 的高性能计算能力和 Hive 的数据仓库管理能力。用户通过 Spark 的 SQL API 编写查询，调用 Hive 的表或元数据。最终生成 Spark 的 RDD 作业计划，提交给 Spark 执行。

spark on hive和hive on spark的区别

weixin_46576686的博客

11-01

409

spark on hive : 是spark 通过spark-sql 使用hive 语句操作hive ,底层运行的还是 spark rdd. *（1）就是通过sparksql，加载hive的配置文件，获取到hive的元数据信息 * （2）spark sql获取到hive的元数据信息之后就可以拿到hive的所有表的数据 * （3）接下来就可以通过spark sql来操作hive表中的数据 hive on spark: 是hive 等的执行引擎变成spark , 不再是mapreduce. 相对于上一项,这个要

Spark on Hive & Hive on Spark，傻傻分不清楚

微信搜：import_bigdata，大数据领域硬核原创作者

04-25

6736

大数据技术与架构点击右侧关注，大数据开发领域最强公众号！暴走大数据点击右侧关注，暴走大数据！上车前需知Spark on hive 与 Hive on Spark 的区别Spark on ...

hive on spark 和 spark on hive区别

feizuiku0116的博客

12-05

1198

Spark on Hive：Spark通过Spark-SQL使用hive语句，操作hive，底层运行的还是spark rdd 就是通过sparksql，加载hive的配置未见，获取到hive的元数据信息 spark sql获取到hive的元数据信息之后就可以拿到hive的所有表的数据接下来就可以通过saprk sql来操作hive表中的数据 Hive on Spark 是把hive查询从mapreduce的mr（Hadoop计算引擎）操作替换为spark rdd（spark执行引擎）操作，相..

spark on hive 和hive on spark的区别

07-28

### Spark on Hive 和 Hive on Spark 的区别 **Spark on Hive** 是指 Spark 通过 Spark SQL 使用 Hive 的元数据和表结构，来操作 Hive 表中的数据。在这种模式下，Hive 仅作为数据存储和元数据管理的工具，而实际的 SQL 解析、优化和执行都由 Spark 完成。Spark 会加载 Hive 的配置文件，获取 Hive 的元数据信息，并通过 Spark SQL 对 Hive 表进行查询和操作。底层的数据处理仍然基于 Spark 的 RDD 或 DataFrame 引擎，具有更高的性能和更灵活的执行能力[^1]。 **Hive on Spark** 则是指 Hive 本身仍然负责 SQL 解析和优化，但底层的计算引擎从传统的 MapReduce 替换为 Spark。这种模式下，Hive 的执行引擎被替换为 Spark，HiveQL 的执行过程不再是生成 MapReduce 任务，而是生成 Spark 任务进行执行。这种方式提升了 Hive 的执行效率，尤其是在处理大规模数据时，性能优势更加明显。但实现 Hive on Spark 需要重新编译 Spark 并导入相关依赖包，因此配置和部署相对复杂[^3]。从架构角度来看，**Spark on Hive** 更加轻量级，适合希望利用 Spark 强大的计算能力，同时保留 Hive 元数据管理的场景；而 **Hive on Spark** 更加适合希望在不改变现有 Hive 查询逻辑的前提下，提升执行性能的场景[^2]。 ### 示例代码以下是一个 Spark on Hive 的简单代码示例，展示如何通过 Spark SQL 操作 Hive 表： ```scala import org.apache.spark.sql.SparkSession object SparkOnHiveExample { def main(args: Array[String]): Unit = { val spark = SparkSession.builder() .appName("SparkOnHiveExample") .enableHiveSupport() .getOrCreate() // 查询 Hive 表中的数据 spark.sql("SELECT * FROM my_hive_table").show() // 执行聚合操作 spark.sql("SELECT department, AVG(salary) FROM employees GROUP BY department").show() spark.stop() } } ``` ### 性能与适用场景 - **Spark on Hive** 更适合需要灵活查询和复杂计算的场景，例如数据湖分析、机器学习预处理等。 - **Hive on Spark** 更适合希望在不改变现有 Hive 查询逻辑的前提下提升执行效率的场景，例如企业级数据仓库的查询加速。 ### 相关问题 1. Spark on Hive 如何配置 Hive 元数据访问？ 2. Hive on Spark 的部署流程是怎样的？ 3. Spark on Hive 是否支持事务性操作？ 4. Hive on Spark 在性能上相比 MapReduce 有哪些提升？ 5. Spark on Hive 是否可以与外部数据源集成？