目录
一、部署环境安装说明
部署环境VMware+Ubuntu18+jdk8+Hadoop3.3.1
关于hadoop的安装和scala的安装参考:
hadoop的安装:
(5条消息) Hadoop开发环境的搭建与配置(基于Linux)_Drajor的博客-优快云博客
scala的安装:
(5条消息) Linux虚拟机上的Scala安装_Drajor的博客-优快云博客_虚拟机linux安装scala
二、Spark安装
1.Spark下载
Spark可以从官网(Apache Spark) 下载。访问国外的链接网速较慢,我们改从清华大学开源软件镜像下载。 下载地址
https://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-3.1.3/spark-3.1.3-bin-hadoop3.2.tgz
如果你要在自己的Linux系统中安装,那么还是需要下载的。我们可以选择以下两种方式之一下载:
先下载到Windows,然后从Windows中将文件传入到虚拟机中。
在Linux的终端下输入
wget https://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-3.1.3/spark-3.1.3-bin-hadoop3.2.tgz
下载。
2.解压Spark安装包
将目录转换到下载Spark的目录中,查看安装情况
解压
Spark
tar -zxvf spark-3.1.3-bin-hadoop3.2.tgz -C/usr/local
的压缩包到/usr/local
目录下
名字过于复杂,不便于调用, 切换到/usr/local
目录下修改Spark文件夹的名字:
mv spark-3.1.3-bin-hadoop3.2/ spark
查看Spark的权限
将Spark的权限改为用户名权限
sudo chown -R hadoop:hadoop ./spark
3.配置环境
进入spark界面
cd spark/
将spark-env.sh.template
重命名为spark-env.sh
。
cp ./conf/spark-env.sh.template ./conf/spark-env.sh
编辑spark-env.sh,在末尾添加这行消息并保存
export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)
验证一下是否安装成功
bin/run-example SparkPi
执行时会输出很多屏幕消息,不容易找到最终的输出结果,为了从大量的输出消息中快速找到我们想要的执行结果,可以通过grep命令来进行过滤
bin/run-example SparkPi 2>&1 | grep "Pi is roughly"
如上图,说明运行成功
启动spark
bin/spark-shell
启动成功。
继续进行配置,编辑这个文件
vim ~/.bash_profile
添加
export TERM=xterm.color
使环境变量生效
source ~/.bash_profile
启动spark
bin/spark-shell
运行成功
4.安装scala(scala要在同一目录下)
sudo apt-get install scala
安装完成后调用
scalac
scala
如下图,则安装成功