目录
- 1、开发环境 idea+maven+spark
- 2、程序代码
- 3、集群提交
1、开发环境 idea+maven+spark
使用idea,创建maven工程,使用scala 编写程序,打包jar并运行在集群中
2、程序代码
package cn.learn.spark
import org.apache.spark.{SparkConf, SparkContext}
object WordCount {
def main(args: Array[String]) {
val conf = new SparkConf().setAppName("WC")
val sc = new SparkContext(conf)
sc.textFile(args(0)).flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).sortBy(_._2,false ).saveAsTextFile(args(1))
sc.stop()
}
}
3、集群提交
进入spark的bin目录,提交代码如下:
./spark-submit \
--master spark://hbase1:7077 \ -------> spark集群的主节点
--class cn.learn.spark.WordCount \ -------> wordCount 程序入口main方法
--total-executor-cores 2 \ -------> 指定执行器总核数
--executor-memory 512m \ -------> 指定每个核占用内存
/home/hadoop/helloSpark-1.0.jar \ -------> 指定程序jar的位置
hdfs://hbase1:9000/wc \ -------> 指定程序参数一:输入集合
hdfs://hbase1:9000/out2 -------> 指定程序参数二:输出集合

本文介绍如何使用IDEA和Maven在Spark集群上部署WordCount程序。从开发环境配置到程序代码实现,再到集群提交过程,详细展示了Spark应用的整个工作流程。
1732

被折叠的 条评论
为什么被折叠?



