Spark 2.4.0 集成Hive 1.2.1
更多资源
官网文档
技能标签
spark-2.4.0-bin-hadoop2.7.tgz 集成Hive 1.2.1
学会安装Spark 2.4.0 standalone模式环境安装
Spark 集群环境maste,worker,history server 启动停止命令
Spark master,worker,history server 配置和管理界面查看
Spark shell 终端执行交互式命令,Spark shell 作业监控
WorldCount案例运行,界面查看
Spark master,worker,history,executor 日志查看
官网: http://spark.apache.org/docs/latest/spark-standalone.html
前置条件
已安装好java(选用的是java 1.8.0_191)
已安装好scala(选用的是scala 2.11.121)
已安装好hadoop(选用的是Hadoop-2.9.2)
hadoop,hive 版本选择,根据spark默认捆绑hive1.2.1版本,不支持hadoop 3.0 以上的版本,所以选的 Hadoop 是3.0以下的版本,这样不需要重新编译Spark,当然,可以手动编译Spark,这样就可以对Hive,Hadoop,自行选择
安装
tar -zxvf spark-2.4.0-bin-hadoop2.7.tgz -C /opt/module/bigdata/
export JAVA_HOME=/opt/module/jdk/jdk1.8.0_191
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export SCALA_HOME=/opt/module/scala/scala-2.11.12
export HADOOP_HOME=/opt/module/bigdata/hadoop-2.9.2
export SPARK_HOME=/opt/module/bigdata/spark-2.4.0-bin-hadoop2.7
export PATH=$JAVA_HOME/bin:$SCALA_HOME/bin:$SPARK_HOME/bin:$SPARK_HOME/sbin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
配置
配置hadoop的classpath
### in conf/spark-env.sh ###
# If 'hadoop' binary is on your PATH
export SPARK_DIST_CLASSPATH=$(hadoop classpath)
# With explicit path to 'hadoop' binary
export SPARK_DIST_CLASSPATH=$(/path/to/hadoop/bin/hadoop classpath)
# Passing a Hadoop configuration directory
export SPARK_DIST_CLASSPATH=$(hadoop --confi