
Spark异常问题汇总
文章平均质量分 56
汇总学习工作中遇到的 Spark 异常问题
Shockang
我是Shockang,AI进化比我喝咖啡还快,程序员危机UP!不想被取代,就抱紧读书救命稻草,还能一起边学边吐槽,欢迎来玩!
展开
-
Overloaded method foreachBatch with alternatives
前言本文隶属于专栏《Spark异常问题汇总》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和参考文献请见 Spark异常问题汇总正文问题描述Spark 编译报错:Error:(34, 25) overloaded method foreachBatch with alternatives: (function: org.apache.spark.api.java.function.VoidFunction2[org.apache.spark.sq原创 2021-10-25 22:26:50 · 1533 阅读 · 4 评论 -
pyspark 中 读取 hive 表,提示 hdfs 中的 nameservice 不识别
前言本文隶属于专栏《Spark异常问题汇总》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和参考文献请见 Spark异常问题汇总正文问题描述pyspark 中 读取hive表,提示 hdfs 中的 nameservice 不识别Caused by: java.net.UnknownHostException: gbigdata问题补充本地 跑 是好的,但是 到 jupyter 上就有问题环境配置的 python 环境是 anaconda原创 2021-10-16 14:01:30 · 3029 阅读 · 0 评论 -
Spark 异常问题汇总
前言本专栏主要汇总工作学习中遇到的一些 Spark 异常问题,也包括一些比较难实现的需求分析。后续问题多了会分门别类,暂时只记录目录Consider boosting spark.yarn.executor.memoryOverheadorg.apache.spark.util.SparkFatalExceptionspark left join 和 right join 的坑Spark 算子返回NULLShuffle output file lostSpark的临时数据不自动清理o原创 2021-10-16 10:40:53 · 6148 阅读 · 2 评论 -
Spark在读目录时候GC,Listing leaf files and directories
前言本文隶属于专栏《Spark异常问题汇总》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和参考文献请见 Spark异常问题汇总正文Spark在读目录时候GC,Listing leaf files and directories,诸位有遇到过吗?Listing leaf files and directories for 259 paths:hdfs://growingFS/modou/userevent/userevent/label/date=原创 2021-10-16 10:32:06 · 1464 阅读 · 2 评论 -
Not committed because the driver did not authorize commit
前言本文隶属于专栏《Spark异常问题汇总》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和参考文献请见 Spark异常问题汇总正文启动 Speculative 后,运行较慢的task会在其他executor上同时再启动一个相同的task,如果其中一个task执行完毕,相同的另一个task就会被禁止提交。因此产生了这个WARN。这个WARN是因为task提交commit被driver拒绝引发,这个错误不会被统计在stage的failure中,这样做的原创 2021-10-16 10:30:33 · 646 阅读 · 0 评论 -
浅谈 Spark SQL 实现任务质量治理的思路
前言本文隶属于专栏《Spark异常问题汇总》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和参考文献请见 Spark异常问题汇总正文问题Spark 集群白天资源比较少,分析脚本可能会跑的时间很长,对此我们想做一些限制,但由于晚上和白天的机器不一样多,如果仅仅限制脚本的执行时间,可能不太合理(比如白天这个脚本跑 20min 晚上可能只需要 3min ),有没有更好的方案?背景我们这边主要是希望可以给分析师或者数仓同事一些脚本质量反馈,提高开发效率。原创 2021-10-16 10:28:19 · 2993 阅读 · 1 评论 -
spark-sql 报错:The root scratch dir: /tmp/hive on HDFS should be writable.
前言本文隶属于专栏《Spark异常问题汇总》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和参考文献请见 Spark异常问题汇总正文执行 spark-sql 脚本的时候报错:[hadoop@node2 ~]$ spark-sqlUsing Spark's default log4j profile: org/apache/spark/log4j-defaults.propertiesSetting default log level to "WA原创 2021-07-31 22:38:58 · 1892 阅读 · 3 评论 -
org.apache.spark.SparkException: Task not serializable
报错原因解析如果出现“org.apache.spark.SparkException: Task not serializable”错误,一般是因为在 map 、 filter 等的参数使用了外部的变量,但是这个变量不能序列化(不是说不可以引用外部变量,只是要做好序列化工作)。原创 2021-07-25 16:53:11 · 33563 阅读 · 11 评论 -
Spark的临时数据不自动清理
在处理 Spark 任务时,会使用到 SparkClient 来提交任务。默认会在 Linux 的 /tmp 目录下产生大量的临时目录(包含有文件)。正常的运行流程是在执行完任务后,会删除产生的这类临时目录,但是有时会发现这类临时目录却无法自动删除。原创 2021-07-25 16:51:53 · 3171 阅读 · 0 评论 -
Shuffle output file lost
前言本文隶属于专栏《Spark异常问题汇总》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和参考文献请见 Spark异常问题汇总正文Spark 运行时有时出现 Shuffle 拉取文件失败的情况,如 Shuffle output file lost 。真正的原因是 GC 导致的!如果 GC 尤其是 FullGC 产生,通常会导致线程停止工作,这个时候下ー个 Stage 的 Task 在默认情况下就会重试来获取数据。一般重试 3 次,每次重试的时间原创 2021-07-25 16:39:02 · 1060 阅读 · 3 评论 -
Spark 算子返回NULL
有些场景下并不需要返回具体的值,这时往往会返回 NULL 值,但有时在下一步的 RDD 操作中要求 RDD 的元素不能为 NULL 。如果是 NULL ,就会抛出异常。原创 2021-07-25 16:23:58 · 769 阅读 · 0 评论 -
spark left join 和 right join 的坑
前言本文隶属于专栏《Spark异常问题汇总》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和参考文献请见 Spark异常问题汇总问题描述在开发 Spark SQL 的时候,遇到了一个问题一个小表 3G 左右, 然后需要 left join 两个大表,一个150G 左右,一个 80G 左右。发现没办法 left join 的时候广播左表;尝试使用 right join ,广播右表,发现物理执行计划没生效。问题定位Spark SQL 在进原创 2021-07-24 20:52:20 · 2353 阅读 · 1 评论 -
org.apache.spark.util.SparkFatalException
前言本文隶属于专栏《Spark异常问题汇总》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和参考文献请见 Spark异常问题汇总问题描述加工维表的过程中做了两个维表的关联报错:java.util.concurrent.ExecutionException: org.apache.spark.util.SparkFatalException at java.util.concurrent.FutureTask.report(Future原创 2021-07-24 20:25:28 · 3251 阅读 · 0 评论 -
Consider boosting spark.yarn.executor.memoryOverhead
前言本文隶属于专栏《Spark异常问题汇总》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和参考文献请见 Spark异常问题汇总问题描述spark submit 报错:org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 2.0 failed 4 times, most recent failure: Lost task 0.3 in st原创 2021-07-24 20:20:28 · 26415 阅读 · 0 评论