当前京东数据平台用到spark 的五种方式

当前京东数据平台用到spark 的五种方式

1.spark sql 数据从Hive 同步到ES
  用python包装命令, 使用spark-submit 提交 ,run_shell_cmd(spark-submit) 具体案例可以参考另外的博文

2.机器学习会用到pyspark 自带的类似kmeans 的方法做数据加载 ,用pypsark 写 应用程序,通过shell 调

spark-submit 执行命令 包装成zip 进行发布

3.再有就是机器学习用Scalaspark  打成jar   结合shell spark-submit 打包成zip 发布

4.另外一种情况把现在python sql 脚本 发布到spark sql 的队列中 ,直接执行 ,相对改变较小,经过测试发现

需要对内存和core 和executor 要有较好的认知把握才能提高程序执行效率

5.最后一种情况是 用Java 或是 Scala python  写 spark程序 rdd ,打成jar 发布 shell zip 包 执行 ,这些个

变化相对较大,不太容易呈现  ,改写要求高,但是对提高对spark 的认识和技能掌握更有提高的空间


comment : 目前公司前四种都有用到 ,第一和第四条我有尝试测试 ,对于 第2 第3 ,第5 暂时未有深度了解,

不过迫在眉睫。

转载于:https://www.cnblogs.com/TendToBigData/p/10501173.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值