Spark编程:Scala与Java实现及RDD操作解析
1. Scala编写Spark作业
1.1 作业概述
我们将使用Scala编写第一个Spark作业,对2015年8月芝加哥犯罪数据集进行处理,统计该月报告的犯罪数量,并在新创建的Spark集群上执行该作业,最后分析结果。
1.2 操作步骤
- 打开Eclipse,创建一个名为Spark - Examples的Scala项目。
- 展开新创建的项目,将Scala库容器的版本修改为2.10,确保Spark使用的Scala库版本与自定义作业的版本一致。
- 打开项目Spark - Examples的属性,添加Spark发行版中所有库的依赖,这些库位于$SPARK_HOME/lib。
- 创建一个chapter.six的Scala包,并在该包中定义一个名为ScalaFirstSparkJob的新Scala对象。
- 在Scala对象中定义一个main方法,并导入SparkConf和SparkContext。
- 在ScalaFirstSparkJob的main方法中添加以下代码:
object ScalaFirstSparkJob {
def main(args: Array[String]) {
println("Creating Spark Configuration")
//Create an Object of Spark Configuration
val conf
超级会员免费看
订阅专栏 解锁全文
1758

被折叠的 条评论
为什么被折叠?



