开发优化之二序列化的优化 Kryo， Serializable、Externalizable接口

最新推荐文章于 2024-07-24 02:14:09 发布

原创最新推荐文章于 2024-07-24 02:14:09 发布 · 749 阅读

0 ·

CC 4.0 BY-SA版权

开发优化专栏收录该内容

2 篇文章

订阅专栏

本文介绍了序列化在分布式系统中的重要性，特别是对于Spark性能的影响。Spark默认使用Java序列化，但因其性能较低和数据占用空间大，推荐使用Kryo进行优化。Kryo序列化速度快、数据占用小，但需要预先注册序列化类型。文章讨论了何时及如何启用Kryo，并提到了Kryo的参数优化，如调整缓存大小和预先注册自定义类型。

加粗样式

序列化的介绍

在任何一个分布式系统中，序列化都是扮演着一个重要的角色的。如果使用的序列化技术，在执行序列化操作的时候很慢，或者是序列化后的数据还是很大，那么会让分布式应用程序的性能下降很多。所以，进行Spark性能优化的第一步，就是进行序列化的性能优化。
Spark自身默认就会在一些地方对数据进行序列化，比如Shuffle。还有就是，如果我们的算子函数使用到了外部的数据（比如Java内置类型，或者自定义类型），那么也需要让其可序列化。
而Spark自身对于序列化的便捷性和性能进行了一个取舍和权衡。默认，Spark倾向于序列化的便捷性，使用了Java自身提供的序列化机制——基于ObjectInputStream和ObjectOutputStream的序列化机制。因为这种方式是Java原生提供的，很方便使用。
但是问题是，Java序列化机制的性能并不高。序列化的速度相对较慢，而且序列化以后的数据，还是相对来说比较大，还是比较占用内存空间。因此，如果你的Spark应用程序对内存很敏感，那么，实际上默认的Java序列化机制并不是最好的选择。
我们有时候会根据我的应用场景来进行取舍，稳定性 OR 性能？

park实际上提供了两种序列化机制，它默认的是使用Java的序列化机制

Java序列化机制：默认情况下，Spark使用Java自身的ObjectInputStream和ObjectOutputStream机制进行对象的序列化。只要你的类实现了Serializable接口，那么都是可以序列化的。而且Java序列化机制是提供了自定义序列化支持的，只要你实现Externalizable接口即可实现自己的更高性能的序列化算法。Java序列化机制的速度比较慢，而且序列化后的数据占用的内存空间比较大。
Kryo序列化机制：Spark也支持使用Kryo类库来进行序列化。Kryo序列化机制比Java序列化机制更快，而且序列化后的数据占用的空间更小，通常比Java序列化的数据占用的空间要小10倍。Kryo序列化机制之所以不是默认序列化机制的原因是，有些类型虽然实现了Seriralizable接口，但是它也不一定能够进行序列化；此外，如果你要得到最佳的性能，Kryo还要求你在Spark应用程序中，对所有你需要序列化的类型都进行注册。

涉及到序列化的地方

在算子函数中使用到外部变量时，该变量会被序列化后进行网络传输。
将自定义的类型作为RDD的泛型类型时（比如JavaRDD，Student是自定义类型），所有自定义类型对象，都会进行序列化。因此这种情况下，也要求自定义的类必须实现Serializable接口。如果说你实现了一个自定义的这种类型，那么必须注册让kryo知道，你要进行此类的一个序列化类
使用可序列化的持久化策略时（比如MEMORY_ONLY_SER），Spark会将RDD中的每个partition都序列化成一个大的字节数组。

## 如何使用kryo序列化机制

开启kryo序列化策略

set("spark.serializer", classOf[KryoSerializer].getName)
或者
set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")

spark-submit脚本要进行开启的
--conf spark.serializer=org.apache.spark.serializer.KryoSerializer

注册要进行序列化的类型

conf.registerKryoClasses(Array(classOf[MySecondSort]))

kryo本身参数优化说明

优化缓存大小
如果注册的要序列化的自定义的类型，本身特别大，比如包含了超过100个field。那么就会导致要序列化的对象过大。此时就需要对Kryo本身进行优化。因为Kryo内部的缓存可能不够存放那么大的class对象。此时就需要调用SparkConf.set()方法，设置spark.kryoserializer.buffer.mb参数的值，将其调大。
默认情况下它的值是2，就是说最大能缓存2M的对象，然后进行序列化。可以在必要时将其调大。比如设置为10。
预先注册自定义类型
虽然不注册自定义类型，Kryo类库也能正常工作，但是那样的话，对于它要序列化的每个对象，都会保存一份它的全限定类名。此时反而会耗费大量内存。因此通常都建议预先注册好要序列化的自定义的类。

sparkConf官方网址：http://spark.apache.org/docs/2.2.2/configuration.html