版本选型
spark2.1.2 , 依赖scala2.11.8
安装部署
- 下载spark-2.1.2-bin-hadoop2.7.tgz
- 解压安装:
进入需要安装的目录
cd /home/wyc/apps
通过共享文件夹,将安装包拷贝进入虚拟机
cp /mnt/hgfs/sharefile/apache-spark/spark-2.1.2-bin-hadoop2.7.tgz .
解压安装包
tar -zxvf spark-2.1.2-bin-hadoop2.7.tgz
创建软链接
ln -s spark-2.1.2-bin-hadoop2.7 spark
- 配置环境变量
修改【~/.bash_profile】,在文件尾部追加以下内容:
#spark install
export SPARK_HOME=/home/wyc/apps/spark
export PATH=$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH
若不重启主机,运行以下命令,使环境配置生效
source ~/.bash_profile
- 至此,单机版搭建完成!
使用命令
spark-shell
浏览器访问WebUI:HTTP://master:4040
- spark-shell scala操作
scala> 2+3
res0: Int = 5
- spark-shell命令介绍
–master:本地模式(默认)
local[*]:开启线程数
spark-shell local[4]
--->spark并行处理4个线程,可以理解为4个节点同时在运行,
用线程的方式模拟集群运行 默认并行度是1
- 退出spark shell
:q
测试
-
本地文件(包含内容)
-
运行spark-shell,加载本地文件
val file = sc.textFile("file:///home/wyc/sparkword.txt")
- 进行单词统计
file.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).sortBy(_._2,false).collect