Spark 性能调优

最新推荐文章于 2025-06-16 17:42:58 发布

故明所以

最新推荐文章于 2025-06-16 17:42:58 发布

阅读量1.3k

点赞数

CC 4.0 BY-SA版权

分类专栏： Spark 文章标签： spark

本文链接：https://blog.youkuaiyun.com/weixin_43520450/article/details/106169843

Spark 性能优化概览：

由于Spark 的计算本质是分布式计算。
Spark程序的性能可能因为集群中的任何因素出现瓶颈：CPU，网络带宽、内存。

如果内存比较紧张，不足以放下所有数据，需要对内存的使用进行性能优化。
比如说：使用一些手段来减少内存消耗。

park的性能优化，其实主要就是在对于内存的使用进行调优。

Spark 性能优化的主要手段：

1、使用高性能的序列化类库
2、优化数据结构
3、RDD持久化、checkpoint
4、使用序列化的持久化级别：MEMORY_ONLY不序列化，MEMORY_ONLY_SER序列化
5、JAVA虚拟机垃圾回收调优
6、Shuffle调优。1.x版本很常见。2.x版本，官方解决这个问题了。

一、诊断Spark内存使用

首先要看到内存使用情况，才能进行针对性优化

1.1 内存花费

（1）每个Java对象，都有一个对象头，占16个字节，主要包含对象的元信息，比如说类的指针。
如果对象本身很小，他的对象头可能比实际数据都大。

（2）String对象，会比他内部原始数据，多出40个字节。

String内部使用char数组来保存内部的字符串序列，需要保存一些诸如数组长度的信息。
如果String使用utf-16编码，每个字符会占用2个字节，比如，包含10个字符的String，占用 10 * 2 + 40 = 60个字节

（3）集合类型，例如HashMap，LinkedList，内部使用链表数据结构，会对每个数据使用Entry对象包装。
Entry对象，不光有对象头，还有指向下一个entry的指针，通常占用8个字节。

（4）原始数据类型，会使用包装类型来存储元素。

1.2 如何判断Spark程序消耗内存情况？

//查看spark的 work 文件
/usr/local/spark-2.1.0-bin-hadoop2.7/work/app-20191109221719-0000/0

19/11/09 22:19:06 INFO MemoryStore: Block rdd_1_0 stored as values in memory (estimated size 26.7 MB, free 339.3 MB)
19/11/09 22:19:08 INFO MemoryStore: Block rdd_1_1 stored as values in memory (estimated