15、Spark编程:Scala与Java实现及RDD操作解析

Spark编程:Scala与Java实现及RDD操作解析

1. Scala编写Spark作业

1.1 作业概述

我们将使用Scala编写第一个Spark作业,对2015年8月芝加哥犯罪数据集进行处理,统计该月报告的犯罪数量,并在新创建的Spark集群上执行该作业,最后分析结果。

1.2 操作步骤

  1. 打开Eclipse,创建一个名为Spark - Examples的Scala项目。
  2. 展开新创建的项目,将Scala库容器的版本修改为2.10,确保Spark使用的Scala库版本与自定义作业的版本一致。
  3. 打开项目Spark - Examples的属性,添加Spark发行版中所有库的依赖,这些库位于$SPARK_HOME/lib。
  4. 创建一个chapter.six的Scala包,并在该包中定义一个名为ScalaFirstSparkJob的新Scala对象。
  5. 在Scala对象中定义一个main方法,并导入SparkConf和SparkContext。
  6. 在ScalaFirstSparkJob的main方法中添加以下代码:
object ScalaFirstSparkJob {
  def main(args: Array[String]) {
    println("Creating Spark Configuration")
    //Create an Object of Spark Configuration
    val conf
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值