6. spark-submit

最新推荐文章于 2024-03-26 18:23:48 发布

ant_yi

最新推荐文章于 2024-03-26 18:23:48 发布

阅读量1.5k

点赞数

CC 4.0 BY-SA版权

分类专栏： spark（pyspark）文章标签： spark-submit yarn local

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_42490528/article/details/86034206

spark（pyspark）专栏收录该内容

10 篇文章

订阅专栏

本文介绍如何使用spark-submit命令在本地和YARN集群上执行WordCount程序。详细解释了spark-submit的常用参数，如--master、--driver-memory、--executor-memory和--executor-cores，并演示了如何在不同环境下运行WordCount.py文件。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

将 wordcount.py 文件使用 spark-submit 来执行

1. 本地执行

2. yarn执行

wordcount.py 文件见下一节【 wordcount（pycharm）】

spark-submit 常用参数：

--master yarn-client spark运行环境

--driver-memory 1G driver程序使用的内存

--executor-memory 6G Executor线程的内存

--executor-cores 4 每个Executor线程的CPU core数量

关于master url的指定方法：

local 本地worker线程中运行spark，完全没有并行

local[K] 在本地work线程中启动K个线程运行spark

local[*] 启动与本地work机器的core个数想通的线程数来运行spark

yarn 使用yarn的cluster或者yarn的client模式连接。

--master yarn-client 相当于--master yarn --deploy-mode client

spark://HOST:PORT 连接指定的standalone集群的master，默认7077端口

测试文本：data.txt

1. local 执行 spark-submit

可以直接：spark-submit wordcount.py

多加几个参数：spark-submit --master local[*] --driver-memory 2g wordcount.py

结果：

2. yarn 执行

spark-submit --master yarn-client wordcount.py

结果：

hadoop fs -ls -R 递归查看目录，spark还把结果分成了2份。

删除hdfs目录：hadoop fs -rm -R /test/output

yarn web：192.168.80.139:8088

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。