算子优化 MapPartitions

最新推荐文章于 2024-11-24 10:57:06 发布

哥伦布112

最新推荐文章于 2024-11-24 10:57:06 发布

阅读量1.9k

点赞数 1

分类专栏： spark 文章标签： spark

本文链接：https://blog.youkuaiyun.com/u013939918/article/details/60881754

版权

spark 专栏收录该内容

65 篇文章

订阅专栏

本文探讨了Spark中MapPartitions操作的优缺点。它能够显著提高性能，但可能会因内存不足导致程序崩溃。适合数据量适中的场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

算子优化 MapPartitions

spark中，最基本的原则，就是每个task处理一个RDD的partition。

MapPartitions操作的优点：

如果是普通的map，比如一个partition中有1万条数据；ok，那么你的function要执行和计算1万次。

但是，使用MapPartitions操作之后，一个task仅仅会执行一次function，function一次接收所有
的partition数据。只要执行一次就可以了，性能比较高。

MapPartitions的缺点：一定是有的。

如果是普通的map操作，一次function的执行就处理一条数据；那么如果内存不够用的情况下，
比如处理了1千条数据了，那么这个时候内存不够了，那么就可以将已经处理完的1千条数据从
内存里面垃圾回收掉，或者用其他方法，腾出空间来吧。

所以说普通的map操作通常不会导致内存的OOM异常。

但是MapPartitions操作，对于大量数据来说，比如甚至一个partition，100万数据，
一次传入一个function以后，那么可能一下子内存不够，但是又没有办法去腾出内存空间来，
可能就OOM，内存溢出。

什么时候比较适合用MapPartitions系列操作，就是说，数据量不是特别大的时候，
都可以用这种MapPartitions系列操作，性能还是非常不错的，是有提升的。比如原来是15分钟，
（曾经有一次性能调优），12分钟。10分钟->9分钟。

但是也有过出问题的经验，MapPartitions只要一用，直接OOM，内存溢出，崩溃。

在项目中，自己先去估算一下RDD的数据量，以及每个partition的量，还有自己分配给每个executor
的内存资源。看看一下子内存容纳所有的partition数据，行不行。如果行，可以试一下，能跑通就好。
性能肯定是有提升的。

但是试了一下以后，发现，不行，OOM了，那就放弃吧。