
spark
jiedaodezhuti
目前工作主要涉及大数据平台,数据治理方面的工作;
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
spark中cache和persist算子的区别
基于spar-k2.4.0的源码对两个算子进行分析它们之间的区别 首先,看下cache()算子的源码 def cache(self): """ Persist this RDD with the default storage level (`MEMORY_ONLY`). """ self.is_cached = True self.persist(StorageLevel.MEMORY_ONLY) return self 该算子调用了persist()算子原创 2020-10-12 17:02:25 · 549 阅读 · 0 评论 -
在windows上pycharm配置spark环境
在pycharm中配置开发环境 a、打开pycharm,创建一个progect,设置run configuration 在环境变量中添加HADOOP_HOME,SPARK_HOME和PYTHONPATH b、安装pyspark 和py4j pyspark安装,在cmd终端中pip install pyspark或者在pycharm的setting中 安装的比较慢,勿骄勿躁。 py4j Py4j...原创 2020-01-02 18:28:51 · 437 阅读 · 0 评论 -
Spark yarn集群搭建
yarn是hadoop的一个子项目,用于管理分布式计算资源,在yarn上面搭建spark集群需要配置好hadoop和spark。集群是有3台虚拟机组成,都是centos系统的。 下面一步一步进行集群搭建。 一.配置hosts文件 为了方便地查找主机,hosts文件是主机名到ip的映射,不用去记各个主机的IP地址. 在以后的url中就可以用master代替192.168.128.135。 192.1...原创 2019-12-27 15:50:57 · 480 阅读 · 0 评论