spark 版 WordCount 程序分析

最新推荐文章于 2021-12-15 11:00:29 发布

原创最新推荐文章于 2021-12-15 11:00:29 发布 · 367 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#spark #wordcount #idea #maven

hadoop 同时被 2 个专栏收录

47 篇文章

订阅专栏

大数据技术学习

31 篇文章

订阅专栏

本文介绍如何使用IDEA和Maven在Spark集群上部署WordCount程序。从开发环境配置到程序代码实现，再到集群提交过程，详细展示了Spark应用的整个工作流程。

1、开发环境 idea+maven+spark
2、程序代码
3、集群提交

1、开发环境 idea+maven+spark

使用idea，创建maven工程，使用scala 编写程序，打包jar并运行在集群中

2、程序代码

package cn.learn.spark

import org.apache.spark.{SparkConf, SparkContext}

object WordCount {
  def main(args: Array[String]) {
    val conf = new SparkConf().setAppName("WC")
    val sc = new SparkContext(conf)
    sc.textFile(args(0)).flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).sortBy(_._2,false ).saveAsTextFile(args(1))
    sc.stop()
  }
}

3、集群提交

进入spark的bin目录，提交代码如下：

./spark-submit \

--master spark://hbase1:7077 \ -------> spark集群的主节点

--class cn.learn.spark.WordCount \ -------> wordCount 程序入口main方法

--total-executor-cores 2 \ -------> 指定执行器总核数

--executor-memory 512m \ -------> 指定每个核占用内存

/home/hadoop/helloSpark-1.0.jar \ -------> 指定程序jar的位置

hdfs://hbase1:9000/wc \ -------> 指定程序参数一：输入集合

hdfs://hbase1:9000/out2 -------> 指定程序参数二：输出集合