Spark算子--map和mapPartition的区别，配实例讲解

最新推荐文章于 2022-07-25 09:11:01 发布

卷曲的葡萄藤

最新推荐文章于 2022-07-25 09:11:01 发布

阅读量1w

点赞数 4

分类专栏： Spark

本文链接：https://blog.youkuaiyun.com/weixin_39043567/article/details/89916221

版权

Spark的map和mapPartitions是两种常用的转换算子，map针对每个元素操作，而mapPartitions则对每个分区的迭代器操作，提升性能。mapPartitions在处理大量数据时可能引发OOM，但能减少资源创建，如连接池的使用。在处理报表分析等场景，mapPartitions通过一次性处理整个分区，可以更有效地利用资源。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

map和mapParttion都是spark的算子，他们在进行数据处理时有一定的区别：

map是RDD中的每一个元素进行操作。
mapPartition是对RDD的每一个分区的迭代器进行操作，返回的是迭代器。

mapPartiton的优势：

提高性能，比如我们对一个含有100条log数据的分区进行操作，使用map的话函数要执行100次计算。使用MapPartitions操作之后，一个task仅仅会执行一次function，function一次接收所有的partition数据。如果map执行的过程中还需要创建对象，比如创建redis连接，jdbc连接等。map需要为每个元素创建一个链接而mapPartition为每个partition创建一个链接。

mapPartiton的缺点：

对于一个partition有很多数据的话，一次函数处理可能会导致OOM。普通的map一般不会导致OOM。

比如以下代码，分析某个报表的时候，我们用mapPartition进行处理，这样一个partition我们创建了一次redis连接，和一个ListBuffer，然后遍历这个分区，将数据存储到ListBuffer中。需要注意的是mapPartition返回的是iterator。

package DMP0505.Repoort

import DMP0505.Bean.Log
import DMP0505.Util.{JedisPools, RptUtils}
import org.apache.commons.lang.StringUtils
i

最低0.47元/天解锁文章