- 博客(6)
- 收藏
- 关注
原创 spark 宽窄依赖
RDD 依赖关系,其实就是两个相邻 RDD 之间的关系RDD 窄依赖窄依赖表示每一个父(上游)RDD 的 Partition 最多被子(下游)RDD 的一个 Partition 使用,窄依赖oneTooneval fileRDD: RDD[String] = sc.textFile("input/1.txt")println(fileRDD.dependencies) final def dependencies: Seq[Dependency[_]] = { chec
2021-08-18 09:50:56
298
原创 Spark Rdd
Spark 计算框架为了能够进行高并发和高吞吐的数据处理,封装了三大数据结构,用于 处理不同的应用场景。三大数据结构分别是:➢ RDD : 弹性分布式数据集➢ 累加器:分布式共享只写变量➢ 广播变量:分布式共享只读变量什么是Rdd?RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是 Spark 中最基本的数据处理模型。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行 计算的集合。 ➢ 弹性 存储的弹...
2021-07-08 09:47:13
169
原创 docker命令
build 镜像:docker build -t harbor.ipinyou.com/hive/hivemetastore:v1 .tag修改镜像:docker tag redis:5.0-alpine harbor.ipinyou.com/hive/redis:v1推送镜像docker push harbor.ipinyou.com/hive/hivemetastore:v1拉取使用镜像docker pull harbor.ipinyou.com/hive/redis:v1查看镜像d.
2021-06-11 09:22:13
210
原创 shell 提交spark-sql 最全参数集合
cd `dirname $0`dir=`pwd`day=$1queue=$2-- spark.default.parallelism=500--executor-memory 1g --executor-cores 3 --driver-memory 1g --master yarn-client --conf spark.driver.extraJavaOptions=" -Dfile.encoding=utf-8 " \--conf spark.exspark-sql --nu.
2021-06-11 09:17:24
1308
转载 Scala中 zip或者zipWithIndex的用法
问题:你要遍历一个有序集合,同时你又想访问一个循环计数器,但最重要的是你真的不需要手动创建这个计数器。解决方案:使用zipWithIndex或者zip方法来自动地创建一个计数器,假设你有一个有序集合days,那么你可以使用zipWithIndex和counter来打印带有计数器的集合元素:package localspark/** * @Author:wangzhen * @Description: * @Date:2021 /3/2 * @Project:Spark...
2021-03-02 11:11:38
1151
原创 distribute by控制分区文件数
distribute by是控制在map端如何拆分数据给reduce端的。hive会根据distribute by后面列,对应reduce的个数进行分发,默认是采用hash算法.大部分情况都用于解决Map输出的文件大小不均,Reduce输出文件大小不均,小文件过多,文件超大等情况.背景:1.在很多情况下,使用spark sql insert overwrite 表时,由于spark.sql....
2018-11-21 11:03:01
16787
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人