Spark 性能优化概览:
由于Spark 的计算本质是分布式计算。
Spark程序的性能可能因为集群中的任何因素出现瓶颈:CPU
,网络带宽
、内存
。
如果内存比较紧张,不足以放下所有数据,需要对内存的使用进行性能优化。
比如说:使用一些手段来减少内存消耗
。
park的性能优化,其实主要就是在对于内存的使用进行调优。
Spark 性能优化的主要手段:
1、使用高性能的序列化类库
2、优化数据结构
3、RDD持久化、checkpoint
4、使用序列化的持久化级别:MEMORY_ONLY不序列化,MEMORY_ONLY_SER序列化
5、JAVA虚拟机垃圾回收调优
6、Shuffle调优。1.x版本很常见。2.x版本,官方解决这个问题了。
一、诊断Spark内存使用
首先要看到内存使用情况,才能进行针对性优化
1.1 内存花费
(1)每个Java对象,都有一个对象头,占16个字节,主要包含对象的元信息,比如说类的指针。
如果对象本身很小,他的对象头可能比实际数据都大。
(2)String对象,会比他内部原始数据,多出40个字节。
String内部使用char数组来保存内部的字符串序列,需要保存一些诸如数组长度的信息。
如果String使用utf-16编码,每个字符会占用2个字节,比如,包含10个字符的String,占用 10 * 2 + 40 = 60个字节
(3)集合类型,例如HashMap,LinkedList,内部使用链表数据结构,会对每个数据使用Entry对象包装。
Entry对象,不光有对象头,还有指向下一个entry的指针,通常占用8个字节。
(4)原始数据类型,会使用包装类型来存储元素。
1.2 如何判断Spark程序消耗内存情况?
//查看spark的 work 文件
/usr/local/spark-2.1.0-bin-hadoop2.7/work/app-20191109221719-0000/0
19/11/09 22:19:06 INFO MemoryStore: Block rdd_1_0 stored as values in memory (estimated size 26.7 MB, free 339.3 MB)
19/11/09 22:19:08 INFO MemoryStore: Block rdd_1_1 stored as values in memory (estimated