spark 使用Kryo优化序列化性能

最新推荐文章于 2024-05-07 13:55:26 发布

lx6766

最新推荐文章于 2024-05-07 13:55:26 发布

阅读量408

点赞数

分类专栏： spark

spark 专栏收录该内容

12 篇文章

订阅专栏

本文深入探讨了Spark中的序列化机制，包括其在算子函数、自定义类型和持久化策略中的应用。详细介绍了Java序列化与Kryo序列化的性能对比，以及如何在Spark中配置Kryo序列化并注册自定义类型。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在Spark中，主要有三个地方涉及到了序列化：

在算子函数中使用到外部变量时，该变量会被序列化后进行网络传输（见“原则七：广播大变量”中的讲解）。
将自定义的类型作为RDD的泛型类型时（比如JavaRDD，Student是自定义类型），所有自定义类型对象，都会进行序列化。因此这种情况下，也要求自定义的类必须实现Serializable接口。
使用可序列化的持久化策略时（比如MEMORY_ONLY_SER），Spark会将RDD中的每个partition都序列化成一个大的字节数组。

Spark默认使用的是Java的序列化机制，Kryo序列化机制比Java序列化机制，性能高10倍左右

spark之所以默认没有使用Kryo作为序列化类库，是因为Kryo要求最好要注册所有需要进行序列化的自定义类型，因此对于开发者来说，这种方式比较麻烦

// 创建SparkConf对象。
val conf = new SparkConf().setMaster(...).setAppName(...)
// 设置序列化器为KryoSerializer。
conf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
// 注册要序列化的自定义类型。
conf.registerKryoClasses(Array(classOf[MyClass1], classOf[MyClass2]))