Spark开发环境搭建(Spark2.2+IDEA2018.2.6)

一、安装单机模式Spark

1.Spark运行环境

2.Spark下载

下载地址:http://spark.apache.org/downloads.html

 搭Spark不需要Hadoop,如有Hadoop集群,可下载相应的版本。

 我选择了Spark2.2版本,对应Hadoop2.7。

3.解压

4.Spark目录

   bin包含用来和Spark交互的可执行文件,入Spark shell。

   core,streaming,python...包含主要组件的源代码。

   examples包含一些单机Spark job,你可以研究和运行这些例子。

5.Spark的shell

  Spark的shell使你能够处理分布在集群上的数据。

  Spark把数据加载到节点的内存中,因此分布式处理可在秒级完成。

  快速式迭代计算,实时查询、分析一般能够在shell中完成。

  Spark提供了Python shells和Scala shells。

Python shell:

  /bin/pyspark

启动:

退出快捷键:

   Ctrl+D

Scala shell:

   bin/spark-shell

启动:

退出快捷键同上

注意:记住shell环境中spark对应的Scala和Python版本

6.修改日志级别

在进入shell环境过程中,有大量的日志加载,如果想减少日志,可以修改日志级别log4j.rootCategory = WARN,consloe

 二、Spark开发环境搭建

1.SCala安装

下载地址:http://www.scala-lang.org/download/

默认安装选项会自动配置环境变量。

注意:版本匹配问题

Spark 1.6.2-Scala 2.10  Spark 2.0.0-Scala 2.11

2.Intellij IDEA下载安装

登录官网https://www.jetbrains.com/idea/download/,按照自己的需求下载(ultimate,旗舰版)或者(Community,社区版)。

安装过程在文档《geotrellis 版本选型和环境搭建》中有涉及,网上也有大量资料可供参考,就不在这里介绍了。

3.Idea配置sbt(window环境)

 详见文档《geotrellis 版本选型和环境搭建》。

4.创建一个Scala项目

(1)创建一个workspace文件夹,用来管理项目源代码。

(2)创建示例文件夹

注意:版本匹配很重要,不然后续会遇到很多问题!!!

    (3)如果出现如图状况,表示新建项目成功

三、开发第一个Spark程序

1.配置ssh无密登录

   ssh-keygen

   .ssh目录 cat xxx_rsa.pub > authorized_keys

   chmod 600 authorized_keys

2.WorldCount

创建一个Spark Context

加载数据

把每一行分割成单词

转换成pairs并且计数

(1)配置build.sbt

 (2)创建一个Scala类,类名WorldCount,类型Object

(3)程序


(4)打包

配置jar包:

   File—》Project Structure—》Artifacts—》JAR—》From...

如果提示如下,标明文件已存在,将其删除重新操作即可

(5)Build

打包成功

3.启动集群

启动master ./sbin/start-master.sh

启动worker ./bin/spark-class

提交作业 ./bin/spark-submit

启动master

查看http://192.168.92.130:8080/,如图表示成功启动

之后启动worker

提交作业:

执行成功后web界面查看:

结束后查看/root/testfile/目录,找到生成的目录:

进入目录,查看结果:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值