
spark
盛世狼烟烟
这个作者很懒,什么都没留下…
展开
-
kylin 集群部署
1. 集群节点规划与说明rzx1 allrzx2 queryrzx3 query说明:Kylin节点角色有三种:all: 包含query和jobquery: 查询节点job: 工作节点3. Kylin依赖的其他大数据组件非常多,下列列表是安装kylin需要的组件JDK 1.8<必须项>HADOOP<必须项,hdfs作为数据存储基础,这里版本是hadoop-2.7.7>ZOOKEERER<必须项,集群协调,这里版本zookeeper-3.4.1原创 2020-05-18 10:15:40 · 543 阅读 · 0 评论 -
kylin依赖 -- CDH5.15安装Spark2.3服务
前提在部署kylin时,提示需要spark2依赖,1、到CDH官网下载对应的spark的parcel包http://archive.cloudera.com/spark2/csd/注意下载对应的版本,CentOS7,下载el7的包。2、开始安装2.1.安装前可以停掉集群和Cloudera Management Service,也可以不停,但是待会还是要停止重启的。2.2.上传CSD包到每台服务器上的/opt/cloudera/csd目录,并且修改文件的用户和组。注意如果本目录下有其他的ja原创 2020-05-18 10:03:53 · 352 阅读 · 0 评论 -
pyspark RDD 一行转多行
dataframe也有按某列中按分隔符转成多行的函数,不过dataframe比rdd所需资源更多,所以此处先些rdd的按某列拆分转为多行dataframe的详见https://spark.apache.org/docs/2.3.1/api/python/pyspark.sql.html#pyspark.sql.DataFrame 的pyspark.sql.functions.explode(co...原创 2020-04-10 11:53:09 · 2752 阅读 · 0 评论 -
1 RDD的数据结构模型
1 RDD的数据结构模型前言:自Google发表三大论文GFS、MapReduce、BigTable以来,衍生出的开源框架越来越多,其中Hadoop更是以高可用、高扩展、高容错等特性形成了开源工业界事实标准。Hadoop是一个可以搭建在廉价PC上的分布式集群生态体系,用户可以在不清楚底层运行细节的情况下,开发出自己的分布式应用。但是Hadoop MapReduce由于其设计初衷并不是为了满足循环...原创 2020-03-22 22:53:12 · 2042 阅读 · 0 评论 -
Spark Rdd coalesce方法和repartition方法
在Spark的Rdd中,Rdd是分区的。有时候需要重新设置Rdd的分区数量,比如Rdd的分区中,Rdd分区比较多,但是每个Rdd的数据量比较小,需要设置一个比较合理的分区。或者需要把Rdd的分区数量调大。还有就是通过设置一个Rdd的分区来达到设置生成的文件的数量。有两种方法是可以重设Rdd的分区:分别是 coalesce()方法和repartition()。这两个方法有什么区别,看看源码就知...原创 2020-03-06 15:44:29 · 283 阅读 · 0 评论