Spark 性能调优

Spark 性能优化概览:

由于Spark 的计算本质是分布式计算。
Spark程序的性能可能因为集群中的任何因素出现瓶颈:CPU网络带宽内存

如果内存比较紧张,不足以放下所有数据,需要对内存的使用进行性能优化。
比如说:使用一些手段来减少内存消耗

park的性能优化,其实主要就是在对于内存的使用进行调优。

Spark 性能优化的主要手段:

1、使用高性能的序列化类库
2、优化数据结构
3、RDD持久化、checkpoint
4、使用序列化的持久化级别:MEMORY_ONLY不序列化,MEMORY_ONLY_SER序列化
5、JAVA虚拟机垃圾回收调优
6、Shuffle调优。1.x版本很常见。2.x版本,官方解决这个问题了。

一、诊断Spark内存使用

首先要看到内存使用情况,才能进行针对性优化

1.1 内存花费

(1)每个Java对象,都有一个对象头,占16个字节,主要包含对象的元信息,比如说类的指针。
如果对象本身很小,他的对象头可能比实际数据都大。

(2)String对象,会比他内部原始数据,多出40个字节。

String内部使用char数组来保存内部的字符串序列,需要保存一些诸如数组长度的信息。
如果String使用utf-16编码,每个字符会占用2个字节,比如,包含10个字符的String,占用 10 * 2 + 40 = 60个字节

(3)集合类型,例如HashMap,LinkedList,内部使用链表数据结构,会对每个数据使用Entry对象包装。
Entry对象,不光有对象头,还有指向下一个entry的指针,通常占用8个字节。

(4)原始数据类型,会使用包装类型来存储元素。

1.2 如何判断Spark程序消耗内存情况?

//查看spark的 work 文件
/usr/local/spark-2.1.0-bin-hadoop2.7/work/app-20191109221719-0000/0

19/11/09 22:19:06 INFO MemoryStore: Block rdd_1_0 stored as values in memory (estimated size 26.7 MB, free 339.3 MB)
19/11/09 22:19:08 INFO MemoryStore: Block rdd_1_1 stored as values in memory (estimated 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值