
spark
文章平均质量分 73
wu13682463835
一个会玩的程序员
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
spark调优
Spark性能调优之数据倾斜 如今学习大数据开发的人不断的增加,但是关于大数据也有不少的小伙伴不是很了解,本篇文章小编就和大家一块来看一下大数据分析之2018大数据Spark性能调优之数据倾斜,希望可以帮到喜欢或者准备学习大数据的小伙伴们。 绝大多数task执行得都非常快,但个别task执行极慢。比如总共有1000个task,997个task都在1分钟之内执行完了,但是剩余两三个task却要一...原创 2018-09-18 09:30:50 · 146 阅读 · 0 评论 -
spark的join
inner join inner join是一定要找到左右表中满足join条件的记录,我们在写sql语句或者使用DataFrmae时,可以不用关心哪个是左表,哪个是右表6,在spark sql查询优化阶段,spark会自动将大表设为左表,即streamIter,将小表设为右表,即buildIter。这样对小表的查找相对更优 left outer join left outer join是以左表为准...原创 2018-09-27 23:02:25 · 774 阅读 · 0 评论 -
sparkOOM问题
Spark中的OOM问题不外乎以下两种情况 map执行中内存溢出 shuffle后内存溢出 map执行中内存溢出代表了所有map类型的操作,包括:flatMap,filter,mapPatitions等。shuffle后内存溢出的shuffle操作包括join,reduceByKey,repartition等操作。 Spark 内存模型: Spark在一个Executor中的内存分为三块,一块是e...原创 2018-09-27 23:04:48 · 255 阅读 · 0 评论