Hive On Spark

本文档详细介绍了如何将Hive 2.3.0的执行引擎从MapReduce切换到Spark 2.0.2,包括删除预发布版本中与Hive冲突的jar包,确保Hive和Spark版本的兼容性,以及编译Spark源码,最后配置环境并验证设置成功。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

之前数据仓库使用的是hive新版本2.3.0,  hive以MapReduce程序跑在yarn集群上。

hive shell常提示:

Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases.    

意思是或者使用Hive1.x/ 或者给hive换个引擎。正好最近需要搭建Spark集群,正好把hive的执行引擎给换掉。

hive 官方文档:https://cwiki.apache.org/confluence/display/Hive/Hive+on+Spark:+Getting+Started

网上查说坑很多,但其实文档写的很清楚。主要注意以下两点:

1)默认spark预发布版本里有hive的jar包(大概是SparkSQL访问Hive用的),要想使用hive on spark 就需要去掉这些spark访问hive 的jar包。 所以推荐使用spark源码自行编译spark.

2) 一定要注意hive版本与spark版本的兼容性。 hive源码的pom.xml 里 spark.version 定义了hive支持的spark版本。

hive2.3.0支持 spark 2.0.0, 很坑,用spark2.2.0试过,不好使。

详述安装配置过程:

java 1.8.0

hadoop 2.7.4

hive 2.3.0

spark 2.0.2  注:spark 使用yarn进行调度,官方文档有一句:Hive on Spark supports Spark on YARN mode as default.

一) 安装JDK/maven/scala/

安装maven是为了编译spark。

下载scala版本2.11.12 ,spark从2.X版本使用scala的2.11.X版本

安装scala:

rpm -Uvh scala-2.11.12.rpm

二)spark编译
tar -zxvf spark-2.0.2.tgz -C /
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值