Spark性能调优之——在实际项目中使用Kryo序列化

最新推荐文章于 2024-11-24 18:49:02 发布

原创最新推荐文章于 2024-11-24 18:49:02 发布 · 4.3k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

-----Spark 专栏收录该内容

50 篇文章

订阅专栏

本文介绍了Spark中Kryo序列化机制的优势及应用场景，包括算子函数中的外部变量、持久化RDD以及shuffle过程中的序列化优化。通过使用Kryo序列化，可以显著提升Spark应用程序的性能。

一、Java的序列化机制

ObjectOutputStream/ObjectInputStream 对象输入输入流机制，来进行序列化。

这种默认序列化机制，的好处在于，处理方便，不需要手动做什么事，只要在算子里面使用的变量，实现Serializable接口的，可序列化即可。

但是缺点在于，默认的序列化机制的效率不高，序列化的速度比较慢，序列化以后的数据，占用的内存空间相对还是比较大。

可以手动序列化格式的优化。

Spark支持Kryo序列化机制。Kryo序列化机制，比默认的Java序列化机制，速度要快，序列化的数据要更小。
大概是Java的1/10.

所以减少传输数据，减少内存消耗。

二、Kryo序列化机制：

1.算子函数中使用到的外部变量。
2.持久化RDD时进行序列化，StorageLever.Memory_only_ser
3.shuffle

三、效果

1.算子函数中使用到的外部变量，使用Kryo以后：优化网络传输的性能，可以优化集群中内存的占用。
2.持久化RDD，优化内存的占用和消耗；持久化RDD占用的内存越少，task执行的时候，创建的对象，就不至于频繁的占满内存，频繁发生GC。
3.shuffle : 可以优化网络传输的性能。

四、怎么用？

第一步：在sparkConf中设置一个属性。

set（“spark.serializer”,"org.apache.spark.serializer.KryoSerializer"）

Kryo之所以没有被作为默认序列化类库的原因：因为Kryo要求，如果要达到它的最佳性能的话，那么就一定要
注册你自定义的类（比如，你的算子函数中使用到了外部自定义类型的对象变量，这时，就要求必须注册你的类，否则Kryo达不到最佳性能）

第二步：注册你使用到的，需要通过Kryo序列化，一些自定义的类。

.registerKryoClasses(new Class[]{CategorySortKey.class});

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。