29 讲、开发 wordcount 程序

最新推荐文章于 2021-12-26 21:37:11 发布

ALuckyPig

最新推荐文章于 2021-12-26 21:37:11 发布

阅读量199

点赞数

CC 4.0 BY-SA版权

分类专栏：大数据文章标签： saprk 开发 wordcount 程序

本文链接：https://blog.youkuaiyun.com/lvoo86/article/details/87458076

3 篇文章

订阅专栏

Spark 本身是使用 scala 开发的

编写 Spark 应用程序，在本地进行测试

第一步：创建 SparkConf 对象，设置 Spark 应用的配置信息，使用 setMaster() 可以设置 Spark 应用程序要连接的 Spark 集群的 master 节点的 url ，但是如果设置为 local ，则代表在本地运行
第二步：创建 JavaSparkContext 对象，在 Spark 中，SparkContext 是 Spark 所有功能的一个入口，你无论是使用 java、scala，甚至是 python 编写都必须要有一个 SparkContext ，它的主要作用，包括初始化 Spark 应用程序所需的一些核心化组件，包括调度器，还会去到 spark Master 节点上进行注册等等，一句话，SparkContext 是 Spark 应用中可以说是最最重要的一个对象
第三步：要针对输入源（Hdfs 、本地文件等等），创建一个初始的 RDD,输入源中的数据会被打散，分配到 RDD 中的每个 Partition 中，从而形成一个初始的分布式的数据集，我们这里因为是本地测试，所以针对的是本地文件。RDD 中有元素这种概念，如果是 hdfs 或者本地文件呢，创建的 RDD，每一个元素相当于文件里的一行
第四步：对初始 RDD 进行 transformation 操作，也就是一些计算操作（方法或函数）
但是我们之前使用的 flatMap mapToPair reduceByKey 这种操作，都叫做 transformation 操作，一个 Spark 应用中，光是有 transformation 操作是不行的，必须要有一种操作叫做 action ，比如 foreach 来触发程序的执行

如果要在 spark 集群上运行，需要修改的，只有两个地方，第一将 SparkConf 的 setMaster() 方法给删掉，默认它会去自己连接，第二，我们针对的不是本地文件了，修改为 hadoop hdfs 上的真正存储大数据的文件

实际执行步骤：