Scala是一门多范式的编程语言,一种类似java的编程语言,设计初衷是实现可伸缩的语言、并集成面向对象编程和函数式编程的各种特性。由于Spark本身是用Scala语言开发的,所以选择了用Scala来开发应用。
1.Scala下载
Scala官网: http://www.scala-lang.org/download/all.html
选择自己需要的版本下载即可,本次采用2.10.5以作学习所用
3.Scala安装
Spark的开发可以通过Intellij或者Eclipse IDE进行,在环境配置的开始阶段,还需要安装相应的Scala插件。本次我们用Intellij IDEA。
1.首先确定,本机环境安装配置了JDK
2.将scala解压到D:scala
SCALA_HOME= D:\scala\scala-2.10.5\scala-2.10.5
说明:“D:\scala\scala-2.10.5\scala-2.10.5”是我本地Scala解压路径。
最后在path变量添加:“;SCALA_HOME%\bin”,追加也可以。
4.在intellij IDEA中做设置
1.Scala插件配置
在"开始"----“程序"里打开我们的IEDA,一路默认进入到如下界面:
选择"Configure”—>“Plugins”—>"Browse repositories"命令,在弹出的界面中输入"Scala"搜索插件,如下图,然后点击相应的安装按钮进行安装,重启Intellij使配置生效。
2.配置Spark应用开发环境
1.在Intellij IDEA中创建Scala Project,名称为SparkTest
2.选择菜单中的"File"–>“project structure”–>“Libraries”,然后选择"+"导入spark-assembly-1.6.0-hadoop2.6.0.jar(在我们之前解压的Spark的lib路径下)。
3.如果IDE无法识别Scala库,需要要以同样的方式将scala库的jar包导入,之后就可以进行开发了,
3.运行Spark程序
1.本地运行
编写完Scala程序后,可以直接在IDEA中以本地(local)模式运行,方法是设置setMaster,此处建议设置一下setAppName,即运行时名字。
2.在集群中运行Spark应用程序jar包
如果想把程序打成jar包,在Spark集群中运行,可以按照以下步骤操作。
1)选择“File”—>“Project Structure”命令,然后选择“Artifact”,单击“+”按钮,选择“Jar”—>“From Modules with dependencies”,如下图所示。
点击“OK”按钮,进入如下界面:
选择Main Class,在弹出的对话框中选择输入Jar位置,并单击“OK”按钮。如下图:
在上图所示对话框中通过OutPut layout中的“+”选择依赖的Jar包后,点击“OK”按钮即可。
2)在主菜单中选择“Build”—>“Build Artifact”命令,编译生成Jar包。
3)在集群的主节点,通过下面命令执行生成的Jar包
Spark jar xxx.jar 输入目录 输出目录