spark map为什么单机模式

最新推荐文章于 2024-10-07 20:57:08 发布

手把手教你学AI

最新推荐文章于 2024-10-07 20:57:08 发布

阅读量163

点赞数

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/zhaomengsen/article/details/82392319

本文深入探讨了Spark中mapPartitions函数的工作原理及其与普通map函数的区别。通过源代码分析，详细解释了MapPartitionsRDD如何实现数据处理，并讨论了不同参数设置下任务的执行方式。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

看到网上这个帖子说map拉模式，mappartition是推模式

不能说错，对应不懂技术刚刚学习的进行简单理解

https://blog.youkuaiyun.com/xingzhiqing/article/details/56304155

通过源代码进行剖析

def mapPartitionsWithIndex[U: ClassTag](
    f: (Int, Iterator[T]) => Iterator[U],
    preservesPartitioning: Boolean = false): RDD[U] = withScope {
  val cleanedF = sc.clean(f)
  new MapPartitionsRDD(
    this,
    (context: TaskContext, index: Int, iter: Iterator[T]) => cleanedF(index, iter),
    preservesPartitioning)
}

di重点看标红的

def map[U: ClassTag](f: T => U): RDD[U] = withScope {
  val cleanF = sc.clean(f)
  new MapPartitionsRDD[U, T](this, (context, pid, iter) => iter.map(cleanF))
}

看map 调用两个参数第三省略了

都调用MapPartitionsRDD

看MapPartitionsRDD具体实现看标红第三参数默认是false

看方法体的第一行 override val partitioner = if (preservesPartitioning) firstParent[T].partitioner else None

如果是false 就分区，如果非false用非类的分区

private[spark] class MapPartitionsRDD[U: ClassTag, T: ClassTag](
    var prev: RDD[T],
    f: (TaskContext, Int, Iterator[T]) => Iterator[U],  // (TaskContext, partition index, iterator)
    preservesPartitioning: Boolean = false)
  extends RDD[U](prev) {

  override val partitioner = if (preservesPartitioning) firstParent[T].partitioner else None

  override def getPartitions: Array[Partition] = firstParent[T].partitions

  override def compute(split: Partition, context: TaskContext): Iterator[U] =
    f(context, split.index, firstParent[T].iterator(split, context))

  override def clearDependencies() {
    super.clearDependencies()
    prev = null
  }
}