spark on yarn的理解

最新推荐文章于 2024-10-07 20:57:08 发布

原创最新推荐文章于 2024-10-07 20:57:08 发布 · 3.4k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

spark 同时被 2 个专栏收录

13 篇文章

订阅专栏

4 篇文章

订阅专栏

在CDH5.5不支持spark-sql和sparkR的情况下，探索使用社区版Spark1.5.2独立安装并与YARN结合。通过在单个节点上部署Spark，实现了Spark on YARN，能够在原有Hadoop集群上运行Spark任务，只需4040端口即可监控，无需额外启动standalone。这种方式简化了部署，但深入理解其工作原理还需进一步研究。

最近在安装调测CDH5.5,发现官方文档明确不支持spark-sql（需要自己去编译）和sparkR。到/opt/cloudera/parcels/CDH/lib/spark/目录看里面，没有R文件夹，bin里面也没有spark-ql和sparkR。比较失望。

http://www.cloudera.com/content/www/en-us/documentation/enterprise/latest/topics/cdh_rn_spark_ki.html

不能因为CDH5.5不支持spark-sql和sparkR就放弃CDH了吧，毕竟图形化管理，Hue，hdfs和impala很好用。然后就搜能否替换spark。

看到网上有其他人用社区版的spark1.5.2独立安装，启动。于是也打算试试。

在搜资料的过程中，发现spark on yarn，standalone方式。集群已经启动yarn，就没有必要在独立起standalone了。

于是搜spark on yarn结果，实在令人失望，很多spark on yarn的部署，看到后面都是全部节点部署，有些帖子并且还启动了master 7077端口之类的，我就知道，这不是standalone么？

Anyway，我尝试只在一个节点上部署spark，scala并设置好环境变量。直接spark-sql和sparkR，然后看主机多了4040监控端口，连接上去，自动跳转到yarn的RM界面上了。

看到Executors上列着3（1个Driver，2个Executor）。执行SQL或者R语句，可以返回结果。

这说明了，确实只要在一个节点上部署即可。至于如何实现的，还需要慢慢理解。

这种方式最大的好处，只要在原有hadoop集群上部署一个节点，也能跑spark任务了。

另外：发现sparkR --master 3中方式（master URL，yarn，local），local方式，提交后，yarn日志没有任务，连接4040端口，也没有跳转到yarn的Application。然后Executors下，只看到Driver。R语句也是正常执行的。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。