
SparkCore
文章平均质量分 92
super_man_0820
无无
展开
-
Spark开发注意事项小结(性能方面)
1. 平台全局配置序列化方式 : kyro spark-default.conf : spark.serializer org.apache.spark.serializer.KryoSerializer 使用自定义类时,对类进行注册,否则会存储每个对象的全类名(full class name) 备注:如果序列化对象较大,提高 spark.kryoserializer.buffer 的值 ...原创 2019-09-02 10:32:14 · 452 阅读 · 0 评论 -
Spark总结整理(一):Spark内核架构(Spark从启动到执行的流程)
本篇文章主要介绍Spark的内核架构,详细介绍从Saprk程序编写完成使用Spark submit(shell)的方式提交到完成任务的流程 Spark任务详解: 将编写的Spark程序打成 jar 包 调用 spark-submit 脚本提交任务到集群上运行 运行sparkSubmit的main方法,在这个方法中通过反射的方式创建我们编写的主类的实例对象,然后调用main方法,开始执...原创 2019-09-04 10:24:17 · 501 阅读 · 0 评论 -
Spark总结整理(二):Spark Transformation和Action整理
本篇文章主要介绍: Transformation 与 Action 常用API 速览 Transformation 与 Action 常用API DEMO 1. Transformation 与 Action 常用API Spark支持两个类型(算子)操作:Transformation和Action 1.1Transformation 将一个已有的RDD生成另外一个RDD。 Transform...原创 2019-09-04 14:14:41 · 374 阅读 · 0 评论 -
Spark总结整理(三):Spark Core 性能优化之开发调优
Spark性能优化主要分为: 开发调优 资源调优 数据倾斜调优 shuffle调优 Spark性能优化的第一步,就是要在开发Spark作业的过程中注意和应用一些性能优化的基本原则 开发调优,就是要让大家了解以下一些Spark基本开发原则,包括:RDD lineage设计、算子的合理使用、特殊操作的优化等 在开发过程中,时时刻刻都应该注意以上原则,并将这些原则根据具体的业务以及实际的应用场景,灵...原创 2019-09-04 16:42:21 · 394 阅读 · 0 评论 -
Spark总结整理(四):Spark Core 性能优化之资源调优
Spark性能优化主要分为: 开发调优 资源调优 数据倾斜调优 shuffle调优 在开发完Spark作业之后,就该为作业配置合适的资源了 资源参数设置的不合理,可能会导致没有充分利用集群资源,作业运行会极其缓慢;或者设置的资源过大,队列没有足够的资源来提供,进而导致各种异常 本篇罗列资源调优的注意事项 1. 引言 建议先了解 Spark作业基本运行原理 和 Spark内存模型 参考: htt...原创 2019-09-04 17:57:51 · 458 阅读 · 0 评论 -
Spark总结整理(五):Spark Core 性能优化之数据倾斜调优
Spark性能优化主要分为: 开发调优 资源调优 数据倾斜调优 shuffle调优 数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能 1. 数据倾斜发生时的现象 绝大多数task执行得都非常快,但个别task执行极慢 比如,总共有1000个task,997个task都在1分钟之内执行完了,但是剩余两三个task却要一两个小时,这种情况很常见 原本...原创 2019-09-06 11:25:56 · 253 阅读 · 0 评论 -
Spark总结整理(六):Spark Core 性能优化之Shuffle调优
Spark性能优化主要分为: 开发调优 资源调优 数据倾斜调优 shuffle调优 大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作 因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优 影响一个Spark作业性能的因素,主要还是代码开发、资源参数以及数据倾斜,shuffle调优只能在整个Spark的...原创 2019-09-06 15:57:00 · 257 阅读 · 0 评论 -
Spark总结整理(七):Spark Core 性能优化之内存模型
Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色 理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优 在执行 Spark 的应用程序时,Spark 集群会启动 Driver 和 Executor 两种 JVM 进程,前者为主控进程,负责创建 Spark 上下文,提交 Spark 作业(Job),并将作业转化为计算任...原创 2019-09-14 10:42:40 · 225 阅读 · 0 评论 -
Spark总结整理(八):Spark Core 性能优化思路、步骤总结
总结前面性能优化相关文章,列出Spark开发性能优化的一般步骤 前述文章包括: 1. Spark总结整理(三):Spark Core 性能优化之开发调优 2. Spark总结整理(四):Spark Core 性能优化之资源调优 3. Spark总结整理(五):Spark Core 性能优化之数据倾斜调优 4. Spark总结整理(六):Spark Core 性能优化之Shuffle调优 5. Sp...原创 2019-09-14 11:04:58 · 244 阅读 · 0 评论