
SparkRDD
文章平均质量分 77
YZY_001
这个作者很懒,什么都没留下…
展开
-
Spark中cache和persist的区别
cache和persist都是用于将一个RDD进行缓存的,这样在之后使用的过程中就不需要重新计算了,可以大大节省程序运行时间。 cache和persist的区别 基于Spark 2.3.2 的源码,可以看到 /** * Persist this RDD with the default storage level (`MEMORY_ONLY`). */ def cache(): t...原创 2018-12-25 23:39:31 · 652 阅读 · 0 评论 -
spark性能调优之使用Kryo序列化
在SparkConf中设置一个属性,spark.serializer,org.apache.spark.serializer.KryoSerializer类;注册你使用到的,需要通过Kryo序列化的, 一些自定义类,SparkConf.registerKryoClasses() SparkConf.set(“spark.serializer”, “org.apache.spark.serializ...转载 2018-12-25 23:44:08 · 333 阅读 · 0 评论