
spark调优
tianlan996
这个作者很懒,什么都没留下…
展开
-
一、Spark性能优化:开发调优篇
转自:https://blog.youkuaiyun.com/u012102306/article/details/513222091、前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学...转载 2019-03-08 09:36:26 · 224 阅读 · 0 评论 -
二、Spark性能优化:资源调优篇
转自:https://blog.youkuaiyun.com/u012102306/article/details/51637366 在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不...转载 2019-03-08 09:36:40 · 232 阅读 · 0 评论 -
三、Spark性能优化:数据倾斜调优
转自:https://blog.youkuaiyun.com/u012102306/article/details/51556450前言 继《Spark性能优化:开发调优篇》和《Spark性能优化:资源调优篇》讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。1.数据...转载 2019-03-08 09:36:51 · 248 阅读 · 0 评论 -
四、Spark性能优化:shuffle调优
转自:https://blog.youkuaiyun.com/u012102306/article/details/51637732shuffle调优调优概述 大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。但是也必须提醒大家的是,影响一个S...转载 2019-03-07 21:58:25 · 365 阅读 · 0 评论