6. spark-submit

本文介绍如何使用spark-submit命令在本地和YARN集群上执行WordCount程序。详细解释了spark-submit的常用参数,如--master、--driver-memory、--executor-memory和--executor-cores,并演示了如何在不同环境下运行WordCount.py文件。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

将 wordcount.py 文件使用 spark-submit 来执行

1. 本地执行

2. yarn执行

wordcount.py 文件见下一节【 wordcount(pycharm)】

 

spark-submit 常用参数:

--master yarn-client spark运行环境

--driver-memory 1G driver程序使用的内存

--executor-memory 6G Executor线程的内存

--executor-cores 4 每个Executor线程的CPU core数量

关于master url的指定方法:

local 本地worker线程中运行spark,完全没有并行

local[K] 在本地work线程中启动K个线程运行spark

local[*] 启动与本地work机器的core个数想通的线程数来运行spark

yarn 使用yarn的cluster或者yarn的client模式连接。

--master yarn-client 相当于--master yarn --deploy-mode client

spark://HOST:PORT 连接指定的standalone集群的master,默认7077端口

 

测试文本:data.txt

 

1. local 执行 spark-submit

可以直接:spark-submit wordcount.py

多加几个参数:spark-submit --master local[*] --driver-memory 2g wordcount.py

结果:

 

2. yarn 执行

spark-submit --master yarn-client wordcount.py

结果:

hadoop fs -ls -R 递归查看目录,spark还把结果分成了2份。

删除hdfs目录:hadoop fs -rm -R /test/output

 

yarn web:192.168.80.139:8088

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值