当前京东数据平台用到spark 的五种方式

dgsdaga3026010

于 2018-08-09 09:16:00 发布

阅读量98

点赞数

文章标签：大数据 python shell

原文链接：http://www.cnblogs.com/TendToBigData/p/10501173.html

版权

当前京东数据平台用到spark 的五种方式

1.spark sql 数据从Hive 同步到ES
用python包装命令，使用spark-submit 提交，run_shell_cmd(spark-submit) 具体案例可以参考另外的博文

2.机器学习会用到pyspark 自带的类似kmeans 的方法做数据加载，用pypsark 写应用程序，通过shell 调

spark-submit 执行命令包装成zip 进行发布

3.再有就是机器学习用Scalaspark 打成jar 结合shell spark-submit 打包成zip 发布

4.另外一种情况把现在python sql 脚本发布到spark sql 的队列中，直接执行，相对改变较小，经过测试发现

需要对内存和core 和executor 要有较好的认知把握才能提高程序执行效率

5.最后一种情况是用Java 或是 Scala python 写 spark程序 rdd ，打成jar 发布 shell zip 包执行，这些个

变化相对较大，不太容易呈现，改写要求高，但是对提高对spark 的认识和技能掌握更有提高的空间

comment ：目前公司前四种都有用到，第一和第四条我有尝试测试，对于第2 第3 ，第5 暂时未有深度了解，

不过迫在眉睫。

转载于:https://www.cnblogs.com/TendToBigData/p/10501173.html

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。