寒陌辰-优快云博客

原创 spark 宽窄依赖

RDD 依赖关系，其实就是两个相邻 RDD 之间的关系RDD 窄依赖窄依赖表示每一个父(上游)RDD 的 Partition 最多被子(下游)RDD 的一个 Partition 使用，窄依赖oneTooneval fileRDD: RDD[String] = sc.textFile("input/1.txt")println(fileRDD.dependencies) final def dependencies: Seq[Dependency[_]] = { chec

2021-08-18 09:50:56 327

原创 Spark Rdd

Spark 计算框架为了能够进行高并发和高吞吐的数据处理，封装了三大数据结构，用于处理不同的应用场景。三大数据结构分别是:➢ RDD : 弹性分布式数据集➢ 累加器:分布式共享只写变量➢ 广播变量:分布式共享只读变量什么是Rdd？RDD(Resilient Distributed Dataset)叫做弹性分布式数据集，是 Spark 中最基本的数据处理模型。代码中是一个抽象类，它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。 ➢ 弹性存储的弹...

2021-07-08 09:47:13 189

原创 docker命令

build 镜像：docker build -t harbor.ipinyou.com/hive/hivemetastore:v1 .tag修改镜像：docker tag redis:5.0-alpine harbor.ipinyou.com/hive/redis:v1推送镜像docker push harbor.ipinyou.com/hive/hivemetastore:v1拉取使用镜像docker pull harbor.ipinyou.com/hive/redis:v1查看镜像d.

2021-06-11 09:22:13 224

原创 shell 提交spark-sql 最全参数集合

cd `dirname $0`dir=`pwd`day=$1queue=$2-- spark.default.parallelism=500--executor-memory 1g --executor-cores 3 --driver-memory 1g --master yarn-client --conf spark.driver.extraJavaOptions=" -Dfile.encoding=utf-8 " \--conf spark.exspark-sql --nu.

2021-06-11 09:17:24 1347

转载 Scala中 zip或者zipWithIndex的用法

问题：你要遍历一个有序集合，同时你又想访问一个循环计数器，但最重要的是你真的不需要手动创建这个计数器。解决方案：使用zipWithIndex或者zip方法来自动地创建一个计数器，假设你有一个有序集合days，那么你可以使用zipWithIndex和counter来打印带有计数器的集合元素：package localspark/** * @Author:wangzhen * @Description: * @Date:2021 /3/2 * @Project:Spark...

2021-03-02 11:11:38 1178

原创 distribute by控制分区文件数

distribute by是控制在map端如何拆分数据给reduce端的。hive会根据distribute by后面列，对应reduce的个数进行分发，默认是采用hash算法.大部分情况都用于解决Map输出的文件大小不均,Reduce输出文件大小不均,小文件过多,文件超大等情况.背景:1.在很多情况下,使用spark sql insert overwrite 表时,由于spark.sql....

2018-11-21 11:03:01 16941 1

WangzhenBeyond的博客