Hive On Spark2.0.0 搭建

本文详细介绍了如何在Hadoop集群上搭建Hive on Spark 2.0.0的步骤,包括选择和编译Hive与Spark的特定版本,配置Hive-site.xml与Spark的环境变量,以及所需jar包的迁移。重点强调了版本兼容性的重要性以及在不同模式下的配置差异。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

      Hive作为Hadoop家族成员中一份子,在现在的离线数据分析中的重要性已经不用多说。但是众所周知,hive是以MR程序跑在YARN集群上的,这其中的酸爽,想必用过的都说好了。随着技术的进步,Hive的开发者也已经意识到了MR的效率已经不能满足很多的日常需求,所以从hive二代开始,尝试着用spark引擎来替换掉MR,到现在为止,已经hive已经能支持几个版本的spark了。好了,下面就来搞一下hive-on-spark。

     由于现在hive-on-spark只是出于测试期间,所以两者之间有着严重的依赖关系,下图是hive官网对hive-on-spark对应版本的说明(https://cwiki.apache.org/confluence/display/Hive/Hive+on+Spark%3A+Getting+Started):

    

    Hive on Spark is only tested with a specific version of Spark, so a given version of Hive is only guaranteed to work with a specific version of Spark. Other versions of Spark may work with a given version of Hive, but that is not guaranteed. Below is a list of Hive versions and their corresponding compatible Spark versions.(Hive on Spark只使用特定版本的Spark进行测试,所以给定版本的Hive只能保证使用特定版本的Spark。其他版本的Spark可能适用于给定版本的Hive,但这并不能保证。下面是蜂巢版本及其相应的兼容Spark版本的列表。)

 本次搭建的版本为:

            hive 2.3.3,spark 2.0.0

一、下载 和安装

   (1)hive的选择

    hive选择2.3.X的任意一个版本就好,想要编译安装的可以选择hive的源码进行编译安装,编译的过程也很简单,将下载好的源码进行解压后,进到解压目录中,执行

    mvn clean install -Phadoop-x,dist -DskinpTests -Dhadoop-23.version=xxx -Dspark.version=xxx

    注意:hadoop和spark,需要查看hive解压目录中的pom文件是否支持现在集群版本,尤其是saprk的版本需要特别注意下

   hive的下载地址:

        http://mirror.bit.edu.cn/apache/hive/hive-2.3.3/apache-hive-2.3.3-bin.tar.gz(镜像版)

        http://mirror.bit.edu.cn/apache/hive/hive-2.3.3/apache-hive-2.3.3-src.tar.gz(源码)

我们选择已经编译过得镜像版就好,具体的安装

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值