spark

最新推荐文章于 2025-08-09 18:05:49 发布

原创最新推荐文章于 2025-08-09 18:05:49 发布 · 93 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#hadoop #spark

hadoop/spark/Hbase/Hive/pig/Zookeeper/HAWQ/cloudera/Impala/Oozie 专栏收录该内容

190 篇文章

订阅专栏

环境:
Hadoop版本：Apache Hadoop2.7.1
Spark版本：Apache Spark1.4.1
核心代码：

测试数据：

Java代码

a,b,a
c,d,f
a,b,h,p,z
a,f,o

a,b,a
c,d,f
a,b,h,p,z
a,f,o

在命令行使用sbt打包：sbt clean package
上传jar至Hadoop或者Spark的集群上，如何提交？

Java代码

三种模式提交:
（1）需要启动HDFS+YRAN，无须启动spark的standalone集群
bin/spark-submit --class com.spark.helloword.WordCount --master yarn-client ./spark-hello_2.11-1.0.jar
（2）启动spark的standalone集群，并启动的Hadoop的HDFS分布式存储系统即可
bin/spark-submit --class com.spark.helloword.WordCount --master spark://h1:7077 ./spark-hello_2.11-1.0.jar
（3）//需要启动HDFS+YRAN，无须启动spark的standalone集群
//--name 指定作业名字
bin/spark-submit --class com.spark.helloword.WordCount --master yarn-cluster --name test-spark-wordcount ./spark-hello_2.11-1.0.jar

三种模式提交:
（1）需要启动HDFS+YRAN，无须启动spark的standalone集群
bin/spark-submit  --class com.spark.helloword.WordCount   --master yarn-client  ./spark-hello_2.11-1.0.jar

（2）启动spark的standalone集群，并启动的Hadoop的HDFS分布式存储系统即可
bin/spark-submit  --class  com.spark.helloword.WordCount  --master spark://h1:7077 ./spark-hello_2.11-1.0.jar 

（3）//需要启动HDFS+YRAN，无须启动spark的standalone集群
//--name 指定作业名字
bin/spark-submit  --class com.spark.helloword.WordCount   --master yarn-cluster  --name test-spark-wordcount   ./spark-hello_2.11-1.0.jar

执行结果：

Java代码

(a,4)
(b,2)
(f,2)
(d,1)
(z,1)
(p,1)
(h,1)
(o,1)
(c,1)

(a,4)
(b,2)
(f,2)
(d,1)
(z,1)
(p,1)
(h,1)
(o,1)
(c,1)

运行模式截图：