
Spark
文章平均质量分 79
zxl333
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark的Master和Worker集群启动的源码分析
基于spark1.3.1的源码进行分析spark master启动源码分析1、在start-master.sh调用master的main方法,main方法调用def main(argStrings: Array[String]) { SignalLogger.register(log) val conf = new SparkConf val args =原创 2015-07-11 22:11:05 · 2633 阅读 · 0 评论 -
sparksql优化之路
最近一直由于公司一个重要的作业,从Tez切换到sparksql,需要对sparksql进行优化。这个表都是left join,慢就慢在join阶段Tez之前根据优化参数,执行时间在7分钟到12分钟之间浮动,sparksql进行一些参数优化,一直在17到24分钟浮动,效率太低。最后查看sparksql的执行时的shuffle阶段发现,每个表参与的shuffle数据量相差很大,最大的612GB,最...原创 2019-01-14 18:40:06 · 4348 阅读 · 0 评论 -
org.apache.spark.SparkException: Kryo serialization failed
在sparksql中显示的指定了mapjoin,导致广播的数据量太大,导致序列化超过指定大小。去除显示指定mapjoinsql如下:with einfo as ( select E6.EMP_NO , E6.TEAM_ID , E6.TEAM_NAME ...原创 2019-02-22 14:11:40 · 926 阅读 · 0 评论 -
大数据遇到的坑
春去秋来,转眼一年又快过去了,这大半年遇到的坑再不记录就忘记了。公司hadoop集群从年初的200台多点到现在的700+,用户越来越多,遇到的坑就越来越多,大坑必须做好熬夜的准备,还好每一次加班都填平了坑。1、hive丢数据了 最近周五将要下班的时候接到同事的电话说一个作业丢数据了将近200万,顿时隐隐感觉不妙,立马投入查看作业日志的进程中。分析作业日志发现临时...原创 2019-09-21 16:20:40 · 2846 阅读 · 2 评论