mappartitions的执行效率要比foreachpartitions高,但是对一个同样的RDD,mappartitions里面的call方法为什么不执行呢?这是懒加载的原因,只有在使用mappartitions的结果的时候,它才会真正去调用call方法执行,比如rdd.mappartitions.collect或者rdd.mappartitions.count
关于Spark里面的RDD.mappartitions的问题
最新推荐文章于 2024-08-21 18:21:02 发布
本文探讨了Spark中mappartitions与foreachpartitions的区别,重点解释了mappartitions的执行机制及其如何利用懒加载特性来提高执行效率。
4929





