Spark 2.4.0 集成Hive 1.2.1

最新推荐文章于 2025-07-24 14:55:48 发布

原创

最新推荐文章于 2025-07-24 14:55:48 发布 · 2.8k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#Spark 2.4.0 集成Hive 1.2.1

Spark 2.4.0 集成Hive 1.2.1

官网文档

https://spark.apache.org/docs/2.4.0/spark-standalone.html

技能标签

spark-2.4.0-bin-hadoop2.7.tgz 集成Hive 1.2.1
学会安装Spark 2.4.0 standalone模式环境安装
Spark 集群环境maste，worker,history server 启动停止命令
Spark master,worker,history server 配置和管理界面查看
Spark shell 终端执行交互式命令，Spark shell 作业监控
WorldCount案例运行，界面查看
Spark master,worker,history,executor 日志查看
官网: http://spark.apache.org/docs/latest/spark-standalone.html

前置条件

已安装好java(选用的是java 1.8.0_191)
已安装好scala(选用的是scala 2.11.121)
已安装好hadoop(选用的是Hadoop-2.9.2)
hadoop,hive 版本选择，根据spark默认捆绑hive1.2.1版本，不支持hadoop 3.0 以上的版本，所以选的 Hadoop 是3.0以下的版本，这样不需要重新编译Spark,当然，可以手动编译Spark,这样就可以对Hive,Hadoop,自行选择

安装

下载安装包 : spark-2.4.0-bin-hadoop2.7.tgz
安装包下载地址: https://archive.apache.org/dist/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz
将安装包上传到服务器上进行安装
解压压缩包

tar -zxvf spark-2.4.0-bin-hadoop2.7.tgz -C /opt/module/bigdata/

配置环境变量(配的是~/.bashrc)

export JAVA_HOME=/opt/module/jdk/jdk1.8.0_191
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

export SCALA_HOME=/opt/module/scala/scala-2.11.12
export HADOOP_HOME=/opt/module/bigdata/hadoop-2.9.2
export SPARK_HOME=/opt/module/bigdata/spark-2.4.0-bin-hadoop2.7
export PATH=$JAVA_HOME/bin:$SCALA_HOME/bin:$SPARK_HOME/bin:$SPARK_HOME/sbin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

配置

配置hadoop的classpath

下载不带hadoop依赖jar的spark版本
需要在spark配置中指定hadoop的classpath
配置文件spark-env.sh

### in conf/spark-env.sh ###

# If 'hadoop' binary is on your PATH
export SPARK_DIST_CLASSPATH=$(hadoop classpath)

# With explicit path to 'hadoop' binary
export SPARK_DIST_CLASSPATH=$(/path/to/hadoop/bin/hadoop classpath)

# Passing a Hadoop configuration directory
export SPARK_DIST_CLASSPATH=$(hadoop