自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 spark 宽窄依赖

RDD 依赖关系,其实就是两个相邻 RDD 之间的关系RDD 窄依赖窄依赖表示每一个父(上游)RDD 的 Partition 最多被子(下游)RDD 的一个 Partition 使用,窄依赖oneTooneval fileRDD: RDD[String] = sc.textFile("input/1.txt")println(fileRDD.dependencies) final def dependencies: Seq[Dependency[_]] = { chec

2021-08-18 09:50:56 298

原创 Spark Rdd

Spark 计算框架为了能够进行高并发和高吞吐的数据处理,封装了三大数据结构,用于 处理不同的应用场景。三大数据结构分别是:➢ RDD : 弹性分布式数据集➢ 累加器:分布式共享只写变量➢ 广播变量:分布式共享只读变量什么是Rdd?RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是 Spark 中最基本的数据处理模型。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行 计算的集合。 ➢ 弹性 存储的弹...

2021-07-08 09:47:13 169

原创 docker命令

build 镜像:docker build -t harbor.ipinyou.com/hive/hivemetastore:v1 .tag修改镜像:docker tag redis:5.0-alpine harbor.ipinyou.com/hive/redis:v1推送镜像docker push harbor.ipinyou.com/hive/hivemetastore:v1拉取使用镜像docker pull harbor.ipinyou.com/hive/redis:v1查看镜像d.

2021-06-11 09:22:13 210

原创 shell 提交spark-sql 最全参数集合

cd `dirname $0`dir=`pwd`day=$1queue=$2-- spark.default.parallelism=500--executor-memory 1g --executor-cores 3 --driver-memory 1g --master yarn-client --conf spark.driver.extraJavaOptions=" -Dfile.encoding=utf-8 " \--conf spark.exspark-sql --nu.

2021-06-11 09:17:24 1308

转载 Scala中 zip或者zipWithIndex的用法

问题:你要遍历一个有序集合,同时你又想访问一个循环计数器,但最重要的是你真的不需要手动创建这个计数器。解决方案:使用zipWithIndex或者zip方法来自动地创建一个计数器,假设你有一个有序集合days,那么你可以使用zipWithIndex和counter来打印带有计数器的集合元素:package localspark/** * @Author:wangzhen * @Description: * @Date:2021 /3/2 * @Project:Spark...

2021-03-02 11:11:38 1151

原创 distribute by控制分区文件数

distribute by是控制在map端如何拆分数据给reduce端的。hive会根据distribute by后面列,对应reduce的个数进行分发,默认是采用hash算法.大部分情况都用于解决Map输出的文件大小不均,Reduce输出文件大小不均,小文件过多,文件超大等情况.背景:1.在很多情况下,使用spark sql insert overwrite 表时,由于spark.sql....

2018-11-21 11:03:01 16787 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除