
pyspark
青山流水在深谷
大数据开发
展开
-
spark shuffle算子
MapReduce基于MapReduce编程思想的spark运行程序,仍然是以先运行map端程序,将map程序处理的结果溢写到磁盘,然后执行reduce端程序进行shuffle操作,对map端处理结果进行处理,得到最终结果。spark driver端将程序创建成job后,通过DAGSchduler将其转换为DAG,然后根据shuffle算子,将其切分为多个stage,stage保证多个任务,形...原创 2020-02-24 23:12:40 · 1304 阅读 · 0 评论 -
pyspark以spark-submit 运行Python程序
1.压缩工程文件sudo zip -r 项目.zip.gz ./*2.配置PYTHONPATH,指向该目录3.工程下创建配置文件conf.py文件AI_PLATFORM_SOURCE=r'/usr/项目.zip'2.代码引用外部模块#从conf引用模块路径from conf import 项目路径sys.path.append(项目路径)from settings i...原创 2019-01-07 15:30:47 · 13793 阅读 · 5 评论 -
Pyspark提交任务
1.压缩工程文件sudo zip -r Project.zip.gz ./*zip -r Project.zip ./*2.配置PYTHONPATH,指向该目录3.工程下创建配置文件conf.py文件PROJECT_SOURCE=r'/usr/Project.zip'2.代码引用外部模块(此代码可以嵌套在js, java,scala)#从conf引用模块路径fro...原创 2019-03-26 15:40:20 · 3121 阅读 · 0 评论 -
H2o-spark
1.满足下面条件:Linux/OS X/Windows Java 8+ Python 2.7+ For Python version of Sparkling Water (PySparkling) Spark 2.3andSPARK_HOMEshell variable must point to your local Spark installation2.安装对应版本...原创 2019-03-28 11:05:57 · 829 阅读 · 0 评论 -
ubuntu + pyspark 开发环境搭建
1.下载,安装anaconda .https://www.anaconda.com/distribution/sudo bash Anaconda3-5.2.0-Linux-x86_64.sh全部使用默认选项,可以指定anaconda 的安装目录,最后遇到vscode 时,选择no2.安装pycharm(专业版:需要激活码,社区版)http://www.jetbrai...原创 2019-03-29 10:50:42 · 1303 阅读 · 0 评论 -
H2O+Spark 计算皮尔逊相关系数
#set_h2o_cluster("10.111.32.12", 54321) external h2o 集群中d的任意节点IP,#set_client_ip("10.111.32.16") h2o 的ip 可以同一个主机conf = H2OConf(ss).set_external_cluster_mode().use_manual_cluster_start().set_h2o_cl...原创 2019-12-02 15:55:32 · 324 阅读 · 0 评论