拾肆:Spark with Hive和Hive on Spark

本文深入探讨Spark与Hive的两种集成方式:Spark with Hive,其中Spark利用Hive Metastore获取元数据,实现数据源扩展;Hive on Spark则是Hive采用Spark作为其执行引擎。文章详细讲解了SparkSession + Hive Metastore、spark-sql CLI + Hive Metastore和Beeline + Spark Thrift Server的集成方法,并对比了Hive on Spark的基本原理和集成实现,强调了不同集成方式的特点和适用场景。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

          在 Hive 与 Spark 这对“万金油”组合中,Hive 擅长元数据管理,而 Spark 的专长是高效的分布式计算,二者的结合可谓是“强强联合”。今天这一讲,我们就来聊一聊 Spark 与 Hive 集成的两类方式,一类是从 Spark 的视角出发,我们称之为 Spark with Hive;而另一类,则是从 Hive 的视角出发,业界的通俗说法是:Hive on Spark。

         当 Hive 采用 Spark 作为底层的计算引擎时,我们就把这种集成方式称作“Hive on Spark”。相反,当 Spark 仅仅是把 Hive 当成是一种元信息的管理工具时,我们把 Spark 与 Hive 的这种集成方式,叫作“Spark with Hive”。

Spark with Hive

        在开始正式学习 Spark with Hive 之前,我们先来说说这类集成方式的核心思想。前面我们刚刚说过,Hive Metastore 利用 RDBMS 来存储数据表的元信息,如表名、表类型、表数据的 Schema、表(分区)数据的存储路径、以及存储格式,等等。形象点说,Metastore 就像是“户口簿”,它记录着分布式文件系统中每一份数据集的“底细”。

        Spark SQL 通过访问 Hive Metastore 这本“户口簿”,即可扩充数据访问来源。而这,就是 Spa

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值