实践目标
实践步骤
一、安装CentOS
本次实践采用虚拟机的方式安装CentOS,需要提前准备虚拟机运行软件VMWare,以及CentOS操作系统镜像。(需要压缩包欢迎留言)
安装好后设置两个账户,root、spark,用户名和密码如下 (可自行设定):
root:123
spark:123
二、安装Spark
1.下载spark压缩包
网址:http://spark.apache.org/downloads.html
(需要压缩包欢迎留言)
2. 新建spark专用文件夹
ls #查看~路径下文件信息
cd /usr #切换路径
sudo mkdir /usr/spark/ #当前路径下新建文件夹spark
出现报错信息:普通用户不具有新建文件夹权限
解决办法:
- 切换到超级用户root
- 添加sudo文件的写权限
- 编辑sudoers文件
具体编辑信息更改如下:
3.解压spark包到指定路径/usr/spark下
切换路径到压缩包所在位置 输入ls指令确保能找到相应spark压缩包
sudo tar -zxf spark-3.0.1-bin-hadoop3.2.tgz -C /usr/spark/
嘱咐几句:极有可能博文中的文件路径与实践中操作的路径会出现不一致,
所以要知其所以然,学会自己排查错误。以下是几点排错体会:
- 命令行Tab键能实现自动扩充(输入的前几个字符在当前路径下唯一)
快捷键能很好地降低长文件名手动输入的错误
例如切换路径进入spark目录 只需要输入cd sp 然后Tab键能实现自动扩充 - 掌握cd逐层排查某个文件的路径
4. 移动spark-3.0.1-bin-hadoop3.2下所有文件
执行红色部分命令行即可,其他部分很好地解释了整个移动过程中相应文件夹内容的变化。
5. 修改文件权限
注意:命令行中第一个 spark 为用户名 ,建议查阅chown指令的基本参数。
6. 验证是否安装成功
到此为止,已经安装好local模式的spark,通过运行spark自带示例验证spark是否安装成功。
注:如果想要spark在真正的分布式环境运行,还需要安装jdk和Hadoop
7. 测试spark shell交互式命令界面
8. 查看spark集群
通过/usr/spark/sbin下的start-all.sh启动spark,
通过http://localhost:8080看到spark集群信息。
Centos没有默认浏览器,需要自行下载firefox或Google等浏览器
三、Spark独立应用程序编程
1. 安装sbt
-
创建文件夹sbt
-
下载sbt:访问“http://www.scala-sbt.org”下载安装文件sbt-1.3.8.tgz
3. 解压文件
-
修改sbt文件权限
-
bin目录下的sbt-launch.jar复制到sbt安装目录
-
创建脚本文件sbt
vim /usr/sbt//sbt #//注意双斜杠
输入以下内容:
#!/bin/bash
SBT_OPTS="-Xms512M -Xmx1536M -Xss1M -XX:+CMSClassUnloadingEnabled -XX:MaxPermSize=256M"
java $SBT_OPTS -jar `dirname $0`/sbt-launch.jar "$@"