
spark
文章平均质量分 66
枫夜求索阁
「枫夜·求索阁」——技术人的思维藏经阁。十年开发沉淀架构设计/源码解析/效能工具,同步技术博客(https://www.fengyege.top/)。既写硬核代码,也谈工程师人文修行,守拙求真,与大家共探技术美学与人生代码。
展开
-
hive udf error: overloaded method value format with alternatives:
场景spark开发udf的时候,有使用String.format函数,对数字进行格式化,结果运行报错报错提示error: overloaded method value format with alternatives: (x$1: java.util.Locale,x$2: String,x$3: <repeated...>[Object])String <and&g...原创 2020-02-13 16:01:12 · 2992 阅读 · 0 评论 -
问题解决:spark.debug.maxToStringFields
问题场景使用spark 2.4.0进行统计数据,报错误,错误提示为:WARN Utils:66 - Truncated the string representation of a plan since it was too large. This behavior can be adjusted by setting 'spark.debug.maxToStringFields' in S...原创 2019-12-19 11:16:58 · 13758 阅读 · 0 评论 -
spark程序调优总结
关于spark程序优化总结,包括参数调优、RDD优化、算子优化等。对于处理大数据量的spark程序而言,如果做好调优,将会有比较明显的效果。从个人而言,是锻炼提升自己的机会;从项目而言,是用最小的资源做最优的事情。下面是我在工作过程中遇到的调优记录,可能不够全面,不过学会了这些,一些简单的调优还是没什么问题的。即使是菜鸟,一步步努力,不骄不躁,终会达到一个比较好的高度!与君共勉之!原创 2020-03-30 22:25:56 · 377 阅读 · 1 评论 -
客户环境没办法查看Spark UI页面,怎么办?让我们来使用Spark REST API查看作业信息吧!
场景通过跳转机才能访问到spark集群的机器;想定制属于自己公司的spark监控界面环境CDH 5.13Spark 1.6IP关系IP类型作用运行过程中,提示出现的链接,如:http://localhost:4040监控运行过程中的应用spark.yarn.historyServer.address监控已经结束的应用情况使用步骤获取spa...原创 2020-03-15 17:19:09 · 1336 阅读 · 0 评论 -
问题解决:spark程序运行过程中,集群线程过多,异常中断(Couldn't set up IO streams)
问题场景spark程序提交之后,运行之后,报错,报错提示如下:Caused by: java.io.IOException: Couldn't set up IO streams at org.apache.hadoop.ipc.Client$Connection.setupIOstreams(Client.java:826) at org.apache.had...原创 2020-02-27 23:12:56 · 2726 阅读 · 0 评论 -
问题解决:scala.MatchError: 816356 (of class java.lang.Integer)
问题场景使用spark进行业务统计的时候,统计过程中触发这个问题,并导致程序异常退出问题环境spark 1.6scala 2.10.6jdk 1.7.0_79问题分析首先,先看看问题报错提示的具体代码,如下:hiveContext.createDataFrame(finalList, RowUtil.buildUserMdnSchema())从这里,我们就可以知道,要么是f...原创 2020-02-27 22:01:44 · 6665 阅读 · 0 评论 -
spark程序优化之一:善用 persist 方法
场景在编写spark程序代码的时候,如果涉及大数据运算的时候,一次计算可能得几十分钟甚至一个小时以上,更极端的情况则是,一个较大的对象被多次使用,导致重复计算了很多次。这种做法就会消耗资源,也会浪费我们的时间。那么,针对这种情况,我们有什么方法来避免吗?嗯,很显然是有的,**那就是将这个多次计算的对象进行缓存,第一次缓存之后,下次就不使用就可以调用,节省重复计算的时间。当然,这个要分情况,对于计...原创 2020-02-17 23:13:04 · 5046 阅读 · 0 评论 -
问题解决:Spark Unable to load native-hadoop library for your platform
软件版本软件版本spark2.4.0hadoop3.2.0scala2.11.8问题场景启动spark-shell的时候,有WARN提示,提示如下:Unable to load native-hadoop library for your platform原因缺少对Hadoop的lib的引用。在环境变量里面进行设置即可。解决方法编辑 ...原创 2019-12-16 17:37:58 · 3565 阅读 · 0 评论 -
SparkException——Dynamic partition strict mode 问题解决
问题场景在spark-shell控制台,运行testDF.write.mode("append").partitionBy("dt").saveAsTable("t_pgw_base_statistics_final_dy_test");,提示org.apache.spark.SparkException: Dynamic partition strict mode requires at l...原创 2018-08-31 18:03:28 · 5297 阅读 · 0 评论