一、安装单机模式Spark
1.Spark运行环境
2.Spark下载
下载地址:http://spark.apache.org/downloads.html
搭Spark不需要Hadoop,如有Hadoop集群,可下载相应的版本。
我选择了Spark2.2版本,对应Hadoop2.7。
3.解压
4.Spark目录
bin包含用来和Spark交互的可执行文件,入Spark shell。
core,streaming,python...包含主要组件的源代码。
examples包含一些单机Spark job,你可以研究和运行这些例子。
5.Spark的shell
Spark的shell使你能够处理分布在集群上的数据。
Spark把数据加载到节点的内存中,因此分布式处理可在秒级完成。
快速式迭代计算,实时查询、分析一般能够在shell中完成。
Spark提供了Python shells和Scala shells。
Python shell:
/bin/pyspark
启动:
退出快捷键:
Ctrl+D
Scala shell:
bin/spark-shell
启动:
退出快捷键同上
注意:记住shell环境中spark对应的Scala和Python版本
6.修改日志级别
在进入shell环境过程中,有大量的日志加载,如果想减少日志,可以修改日志级别log4j.rootCategory = WARN,consloe
二、Spark开发环境搭建
1.SCala安装:
下载地址:http://www.scala-lang.org/download/
默认安装选项会自动配置环境变量。
注意:版本匹配问题
Spark 1.6.2-Scala 2.10 Spark 2.0.0-Scala 2.11
2.Intellij IDEA下载安装
登录官网https://www.jetbrains.com/idea/download/,按照自己的需求下载(ultimate,旗舰版)或者(Community,社区版)。
安装过程在文档《geotrellis 版本选型和环境搭建》中有涉及,网上也有大量资料可供参考,就不在这里介绍了。
详见文档《geotrellis 版本选型和环境搭建》。
4.创建一个Scala项目
(1)创建一个workspace文件夹,用来管理项目源代码。
(2)创建示例文件夹
注意:版本匹配很重要,不然后续会遇到很多问题!!!
(3)如果出现如图状况,表示新建项目成功
三、开发第一个Spark程序
1.配置ssh无密登录
ssh-keygen
.ssh目录 cat xxx_rsa.pub > authorized_keys
chmod 600 authorized_keys
2.WorldCount
创建一个Spark Context
加载数据
把每一行分割成单词
转换成pairs并且计数
(1)配置build.sbt
(2)创建一个Scala类,类名WorldCount,类型Object
(3)程序
(4)打包
配置jar包:
File—》Project Structure—》Artifacts—》JAR—》From...
如果提示如下,标明文件已存在,将其删除重新操作即可
(5)Build
打包成功
3.启动集群
启动master ./sbin/start-master.sh
启动worker ./bin/spark-class
提交作业 ./bin/spark-submit
启动master
查看http://192.168.92.130:8080/,如图表示成功启动
之后启动worker
提交作业:
执行成功后web界面查看:
结束后查看/root/testfile/目录,找到生成的目录:
进入目录,查看结果: