Spark SQL整合Hive

1. Spark SQL整合Hive

为什么要进行整合?
由于hive原生是基于MapReduce的,导致其查询耗时较长。而SparkSQL底层是spark core(RDD),在内存中计算数据,且是粗粒度资源调度。
为了保留Hive的架构解决方案,并优化查询速度,采用SparkSql与hive整合(spark on hive),通过SparkSQL读取hive中表的元数据,把HiveHQL底层采用MapReduce处理任务导致性能慢的特点,改为更加强大的Spark core引擎来进行相应的计算处理。
在这里插入图片描述

环境搭建准备 ( 搭建步骤前面写过 )

  1. 搭建hadoop集群
  2. 安装hive构建数据仓库
  3. 安装spark集群

SparkSQL整合hive
Spark SQL的其中一个分支就是Spark on Hive,就是使用Hive中HQL的解析逻辑、执行计划翻译、执行计划优化等逻辑,可认为将物理执行Task从MR作业替换成了Spark作业。
Spark SQL整合hive就是获取hive表中的元数据信息(在mysql中),然后通过Spark SQL来操作数据。
整合步骤:

2. SparkSQL与Hive共用元数据

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值