
Spark
文章平均质量分 65
记录生产中遇到的spark问题
南风知我意丿
“知识,哪怕是知识的幻影,也会成为你的铠甲,保护你不被愚昧反噬”
展开
-
Spark 之从cogroup的实现来看join是宽依赖还是窄依赖
Spark 之从cogroup的实现来看join是宽依赖还是窄依赖原创 2023-04-12 11:13:43 · 325 阅读 · 0 评论 -
Spark Rdd之cogroup实现intersection、join、leftOuterJoin、rightOuterJoin
Spark Rdd之cogroup实现intersection、join、leftOuterJoin、rightOuterJoin原创 2023-04-11 17:21:58 · 260 阅读 · 0 评论 -
Spark Rdd 之map、flatMap、mapValues、flatMapValues、flatMapWith
Spark Rdd 之map、flatMap、mapValues、flatMapValues、flatMapWith原创 2023-04-11 17:15:38 · 1352 阅读 · 0 评论 -
Spark 多线程并行提交job
spark多线程并行处理任务原创 2023-03-31 14:42:34 · 858 阅读 · 0 评论 -
spark读Hbase数据集成Hbase Filter(过滤器)
spark读Hbase数据集成Hbase Filter(过滤器)原创 2023-03-17 18:30:03 · 404 阅读 · 1 评论 -
限制Spark作业失败的重试次数
【代码】限制Spark作业失败的重试次数。原创 2023-03-17 18:14:25 · 574 阅读 · 0 评论 -
亿万级海量数据去重软方法
亿万级海量数据去重软方法原创 2023-03-03 18:20:42 · 1113 阅读 · 0 评论 -
Spark OOM问题常见解决方式
Spark OOM问题常见解决方式原创 2023-02-14 21:20:44 · 1509 阅读 · 0 评论 -
SparkContext.textFile读取文件
SparkContext.textFile读取文件原创 2023-02-13 22:26:52 · 4841 阅读 · 0 评论 -
ShuffledRDD 源码
ShuffledRDD源码原创 2023-01-30 15:32:05 · 255 阅读 · 0 评论 -
Could not find or load main class org.apache.spark.deploy.yarn.ApplicationMaster
Spark on Yarn出现Could not find or load main class org.apache.spark.deploy.yarn.ApplicationMaster原创 2022-12-26 18:42:57 · 1967 阅读 · 0 评论 -
Spark 写hdfs自定义文件名
Spark 写hdfs自定义文件名原创 2022-11-18 23:41:30 · 2000 阅读 · 2 评论 -
Spark生产环境高效读写My SQL(df,rdd)
spark df生产环境下高效读写MySQL,以及常见问题排查思路原创 2022-11-04 15:58:28 · 590 阅读 · 0 评论 -
Spark rdd之count详解
Spark rdd之count详解原创 2022-11-01 18:21:44 · 812 阅读 · 0 评论 -
记一次Spark海量数据导入Doris问题(failed to init delta writer. version count: 503, exceed limit: 500)
Doris写入数据错误,持续更新原创 2022-10-28 17:16:42 · 3183 阅读 · 4 评论 -
Spark之Container killed on request.Exit code is 137
当容器(Spark 执行程序)内存不足时,YARN 会自动将其终止。这会导致“Container killed on request.Exit code is 137”(根据要求终止容器。退出代码为 137)错误。这些错误可能发生在不同的作业阶段,无论是否发生shuffle原创 2022-10-28 16:27:30 · 1468 阅读 · 0 评论 -
Spark rdd之aggregateByKey
对PairRDD中相同的Key值进行聚合操作,在聚合过程中同样使用了一个中立的初始值。和aggregate函数类似,aggregateByKey返回值的类型不需要和RDD中value的类型一致。因为aggregateByKey是对相同Key中的值进行聚合操作,所以aggregateByKey'函数最终返回的类型还是PairRDD,对应的结果是Key和聚合后的值,而aggregate函数直接返回的是非RDD的结果原创 2022-10-24 16:30:25 · 519 阅读 · 0 评论 -
spark rdd之groupByKey
GroupByKey操作可能非常昂贵。如果您正在分组以便对每个键执行聚合(例如求和或平均),则使用 `aggregateByKey` 或` reduceByKey` 将提供更好的性能。>注意:按照目前的实现,groupByKey 必须能够保存内存中任何键的所有键值对。如果一个键的值太多,造成数据倾斜,可能会导致 `OutOfMemoryError`原创 2022-10-24 13:51:18 · 1168 阅读 · 0 评论 -
Shuffle算子不一定产生宽依赖
Shuffle算子为甚么不一定产生宽依赖?原创 2022-10-24 13:13:41 · 218 阅读 · 0 评论 -
Spark rdd之sortBy
从sortBy函数的实现可以看出,第一个参数是必须传入的,而后面的两个参数可以不传入.而且sortBy函数函数的实现依赖于skeyBy和sortByKey函数,后面会进行说明原创 2022-10-15 23:29:42 · 2428 阅读 · 0 评论 -
Spark 静态资源配置方法
执行Spark任务,资源分配是很重要的一方面。如果配置不准确,Spark任务将耗费整个集群的机缘导致其他应用程序得不到资源。怎么去配置Spark任务的executors,cores,memory,有如下几个因素需要考虑:- 数据量- 任务完成时间点- 静态或者动态的资源分配- 上下游应用原创 2022-10-14 18:06:09 · 838 阅读 · 0 评论 -
Spark之Caused by: Operation category READ is not supported in state standby
Caused by: Operation category READ is not supported in state standby原创 2022-10-08 18:29:01 · 939 阅读 · 0 评论 -
Scala - Iterator 与 Array 内存的思考[转]
toArray: 将此可遍历或迭代器的所有元素复制到缓冲区。注意:对于无限大小的集合不会终止。toIterator: 返回此iterable集合中元素的迭代器。生成与迭代器相同的结果。前者会将所有元素复制到缓存区,所以大数据量下会占用很多内存,后者返回迭代器,数据持续读出,所以占用内存少。转载 2022-09-23 11:29:11 · 345 阅读 · 0 评论 -
Spark rdd之distinct
类似于wordcount的写法:map算子把元素转为一个带有null的元组;使用reducebykey对具有相同key的元素进行统计;之后再使用map算子,取得元组中的单词元素,实现去重的效果。原创 2022-09-22 10:08:51 · 540 阅读 · 0 评论 -
Spark rdd之mappartition妙用
类似于 Map 算子,但是不是基于每一条数据,而是基于一个 partition 来计算的,func 将接受一个迭代器,可以从迭代器中获取每一条数据进行操作,返回一个迭代器。形成一个新的 RDD。原创 2022-09-21 18:50:54 · 1447 阅读 · 0 评论 -
Spark rdd之flatMap
flatMap其实就是将RDD里的每一个元素执行自定义函数f,这时这个元素的结果转换成iterator,最后将这些再拼接成一个新的RDD,也可以理解成原本的每个元素由横向执行函数f后再变为纵向。next一直在回调,当RDD内没有元素为止原创 2022-09-21 18:43:36 · 1432 阅读 · 0 评论 -
Spark Structured Streaming 解析 JSON
Spark Structured Streaming 解析 复杂嵌套JSON原创 2022-09-18 18:20:05 · 690 阅读 · 0 评论 -
Spark rdd之repartitionAndSortWithinPartitions
根据给定的分区器对 RDD 进行重新分区,并在每个生成的分区中,按记录的key对记录进行排序。这比调用 repartition 然后在每个分区内排序更有效,因为它可以将排序向下推到 shuffle 机器中。如果需要在repartition重分区之后,还要进行排序,建议直接使用repartitionAndSortWithinPartitions算子必须是 类型的rdd才可以调用原创 2022-09-04 18:57:46 · 1325 阅读 · 0 评论 -
Scala之模式匹配(match case)
Scala的match表达式类似于其他语言中的switch语句,它可以提供给你在多个备选项中做选择。基本上match表达式可以让你使用任意的模式(pattern)做选择。原创 2022-08-30 18:52:07 · 448 阅读 · 0 评论 -
Spark rdd之mapToPair,flatMapToPair
> scala 无这两个算子,以下是代替方案(麻烦),建议还是转javaRdd吧> maptoPair = map> flatMapToPair = flatMap + map原创 2022-08-30 17:53:04 · 994 阅读 · 0 评论 -
Spark 之 Accumulator 累加器
累加器:分布式只写变量(Executor端的task不能互相访问累加器的值)。累加器对信息进行聚合。累加器分布式情况是线程安全的原创 2022-08-20 19:12:41 · 1850 阅读 · 4 评论 -
Spark on Yarn With K8s
Spark on Yarn With K8s原创 2022-08-16 13:54:47 · 374 阅读 · 0 评论 -
RoaringBitMap学习和实践
1.RoaringBitMap学习和实践2.Spark海量数据count(distinct)优化原创 2022-08-11 14:27:53 · 1102 阅读 · 0 评论 -
Spark跨集群写hive
我们有两个集群(ps:计算集群/存储集群),现在有个需求就是,计算集群运行Spark任务,从kafka取数据写到存储集群的hive。1,在远程连接Hive时Hive有两种服务Hive Metastore Server和HiveServer2HiveServer2是JDBC连接,使用这种方式会占用数据本地集群的计算资源(常用默认端口10000的那种)2,Spark连接Hive可以使用Hive Metastore Server,这样只需连接Hive的元数据,通过元数据记录的数据路径拉取数据使用Spark对原创 2022-06-05 19:40:01 · 1228 阅读 · 4 评论 -
Spark读取多目录
上游任务按类型生成json文件存放到hdfs上,会生成很多目录。下游任务需要读取这些目录下得文件,生成df进行处理。原创 2022-07-29 17:30:12 · 892 阅读 · 0 评论 -
记一次 ERROR scheduler.AsyncEventQueue: Dropping event from queue shared导致OOM
记一次 ERROR scheduler.AsyncEventQueue: Dropping event from queue shared导致OOM。修复 ExectionListenerBus 的内存泄漏的方法,解决当 SparkSession 被 GC‘ ed 时,ExectionListenerBus无法从LiveListenerBus队列删除原创 2022-07-28 19:24:47 · 1432 阅读 · 0 评论 -
spark分区算子partitionBy、coalesce、repartition
spark分区算子partitionBy、coalesce、repartition原创 2022-07-22 15:39:43 · 880 阅读 · 0 评论 -
Spark 内存管理机制,基于Spark3.x
一、参数 spark.memory.fraction spark.memory.storageFraction二、Spark 内存分配在Spark UI的表现 1.Spark UI with On Heap 2.Spark UI with OffHeap Enabled原创 2022-07-22 13:49:29 · 1671 阅读 · 0 评论 -
spark中saveAsTextFile如何最终生成一个文件
一般而言,`saveAsTextFile`会按照执行task的多少生成多少个文件,比如part-00000一直到part-0000n,n自然就是task的个数,亦即是最后的stage的分区数。那么有没有办法最后只生成一个文件,而不是成百上千个文件了?答案自然是有办法。...原创 2022-07-21 15:44:53 · 2264 阅读 · 0 评论 -
args参数解析
一般情况下我们是通过 args(0),args(1)。。。取传入程序的参数,少的话还好,参数一旦很多的话 就会很乱,时间长了,我们就不知道传递的参数的含义了原创 2022-07-21 10:59:16 · 1593 阅读 · 0 评论