spark

环境:
Hadoop版本:Apache Hadoop2.7.1
    Spark版本:Apache Spark1.4.1
核心代码:



测试数据:

Java代码 复制代码  收藏代码
  1. a,b,a  
  2. c,d,f  
  3. a,b,h,p,z  
  4. a,f,o  
a,b,a
c,d,f
a,b,h,p,z
a,f,o



在命令行使用sbt打包:sbt clean package
上传jar至Hadoop或者Spark的集群上,如何提交?

Java代码 复制代码  收藏代码
  1. 三种模式提交:  
  2. 1)需要启动HDFS+YRAN,无须启动spark的standalone集群  
  3. bin/spark-submit  --class com.spark.helloword.WordCount   --master yarn-client  ./spark-hello_2.11-1.0.jar  
  4.   
  5. 2)启动spark的standalone集群,并启动的Hadoop的HDFS分布式存储系统即可  
  6. bin/spark-submit  --class  com.spark.helloword.WordCount  --master spark://h1:7077 ./spark-hello_2.11-1.0.jar   
  7.   
  8. 3//需要启动HDFS+YRAN,无须启动spark的standalone集群  
  9. //--name 指定作业名字  
  10. bin/spark-submit  --class com.spark.helloword.WordCount   --master yarn-cluster  --name test-spark-wordcount   ./spark-hello_2.11-1.0.jar   
三种模式提交:
(1)需要启动HDFS+YRAN,无须启动spark的standalone集群
bin/spark-submit  --class com.spark.helloword.WordCount   --master yarn-client  ./spark-hello_2.11-1.0.jar

(2)启动spark的standalone集群,并启动的Hadoop的HDFS分布式存储系统即可
bin/spark-submit  --class  com.spark.helloword.WordCount  --master spark://h1:7077 ./spark-hello_2.11-1.0.jar 

(3)//需要启动HDFS+YRAN,无须启动spark的standalone集群
//--name 指定作业名字
bin/spark-submit  --class com.spark.helloword.WordCount   --master yarn-cluster  --name test-spark-wordcount   ./spark-hello_2.11-1.0.jar 


执行结果:

Java代码 复制代码  收藏代码
  1. (a,4)  
  2. (b,2)  
  3. (f,2)  
  4. (d,1)  
  5. (z,1)  
  6. (p,1)  
  7. (h,1)  
  8. (o,1)  
  9. (c,1)  
(a,4)
(b,2)
(f,2)
(d,1)
(z,1)
(p,1)
(h,1)
(o,1)
(c,1)


运行模式截图:







评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值