29 讲、开发 wordcount 程序

Spark 本身是使用 scala 开发的

开发 wordcount 程序

编写 Spark 应用程序,在本地进行测试

  1. 第一步:创建 SparkConf 对象,设置 Spark 应用的配置信息 ,使用 setMaster() 可以设置 Spark 应用程序要连接的 Spark 集群的 master 节点的 url ,但是如果设置为 local ,则代表在本地运行
  2. 第二步:创建 JavaSparkContext 对象,在 Spark 中,SparkContext 是 Spark 所有功能的一个入口,你无论是使用 java、scala,甚至是 python 编写都必须要有一个 SparkContext ,它的主要作用,包括初始化 Spark 应用程序所需的一些核心化组件,包括调度器,还会去到 spark Master 节点上进行注册等等,一句话,SparkContext 是 Spark 应用中可以说是最最重要的一个对象
  3. 第三步:要针对输入源(Hdfs 、本地文件等等),创建一个初始的 RDD,输入源中的数据会被打散,分配到 RDD 中的每个 Partition 中,从而形成一个初始的分布式的数据集,我们这里因为是本地测试,所以针对的是本地文件。RDD 中有元素这种概念,如果是 hdfs 或者本地文件呢,创建的 RDD,每一个元素相当于文件里的一行
  4. 第四步:对初始 RDD 进行 transformation 操作,也就是一些计算操作(方法或函数)
  5. 但是我们之前使用的 flatMap mapToPair reduceByKey 这种操作,都叫做 transformation 操作,一个 Spark 应用中,光是有 transformation 操作是不行的,必须要有一种操作叫做 action ,比如 foreach 来触发程序的执行

如果要在 spark 集群上运行,需要修改的,只有两个地方,第一将 SparkConf 的 setMaster() 方法给删掉,默认它会去自己连接,第二,我们针对的不是本地文件了,修改为 hadoop hdfs 上的真正存储大数据的文件

实际执行步骤:

  1. 将 spark.txt 文件上传到 hdfs 上去
  2. 使用我们最早在 pom.xml 里配置的 maven 插件,对 spark 工程进行打包
  3. 将打包后的 spark 工程 jar 包,上传到机器上执行
  4. 编写 spark-submit 脚本
  5. 执行 spark-submit 脚本,提交 spark 应用到集群执行
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值