map、flatmap、mapPartitions、mapPartitionsWithIndex算子的区别?

map、flatmap、mapPartitions、mapPartitionsWithIndex算子的区别?
相同点:都是对一个RDD元素进行映射,即map,具体怎么映射,根据传入的参数来决定
区别: 首先map和mapPartitions的区别是map对RDD中每个元素取出来,作为定义函数的参数,然后传进去,计算值,得到新的RDD里面新的元素;mapPartitions是将每个分区里面的数据拿出来,然后使用我们定义的函数,然后将分区数据直接传给我们定义的函数,然后直接计算这个分区的数据在函数映射之后的结果。而mapPartitionsWithIndex是基于分区计算的,而且当前分区的index即索引号,然后我们可以拿到这些信息,并取出来;flatMap先做映射,要求映射的结果一定是一个集合,而要要求结果是一个集合,就一定要做一个压平操作,这时就一定要用flatMap.
效率也不一样:mapPartitionsWithIndex和mapPartitions因为可以指定分区,都是基于分区计算,所以效率非常高,缺点就是都容易导致OM,即内存溢出

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值