Spark源码分析(八):ShuffleWriter

本文介绍了Spark中ShuffleWriter的不同类型及选择逻辑。根据任务需求和配置参数,Spark会选择ByPassMergeSortShuffleWriter、SortShuffleWriter或UnsafeShuffleWriter。文章详细解析了这些组件的工作原理及其适用场景。

ShuffleWriter

ShuffleWriter一共分成三种:ByPassMergeSortShuffleWriter,SortShuffleWriter和UnsafeShuffleWriter
首先通过源码分析一下运行时如何选择ShuffleWriter
看一下ShuffleMapTask的runTask()

// 获取shuffleMnager
val manager = SparkEnv.get.shuffleManager
writer = manager.getWriter[Any, Any](dep.shuffleHandle, partitionId, context)
// 首先调用了rdd的iterator并且传入了当前task要处理哪个partition
// 核心地逻辑,就在rdd的iteretor中
// 返回的数据,都是通过ShuffleWriter,经过HashPartitioner进行分区后
// 写入自己对应的分区bucket中
// 默认的writer是HashWriter
// 在spark2.0中已经移除了HashWriter,使用了SortWriter
writer.write(rdd.iterator(partition, context).asInstanceOf[Iterator[_ <: Product2[Any, Any]]])
// 最后,返回结果MapStatus,封装了ShuffleMapTask计算后的数据
// 存储在哪里,其实就是BlockManager的相关的信息
// BlockManager,是Spark的内存,数据,磁盘管理工具
writer.stop(success = true).get

上面的代码主要作用就是获取ShuffleWriter,然后将rdd的运行结果通过ShuffleWriter写入到由BlockManager管理的本地磁盘
获取ShuffleWriter的关键代码是

writer = manager.getWriter[Any, Any](dep.shuffleHandle, partitionId, context)

接着看一下dep.shuffleHandle是怎么得到的

val shuffleHandle: ShuffleHandle = _rdd.context.env.shuffleManager.registerShuffle(
    shuffleId, _rdd.partitions.length, this)
override def registerShuffle[K, V, C](
      shuffleId: Int,
      numMaps: Int,
      dependency: ShuffleDependency[K, V, C]): ShuffleHandle = {
 if (SortShuffleWriter.shouldBypassMergeSort(conf, dependency)) {
   /*
   * 如果当前存在的partition数量比spark.shuffle.sort.bypassMergeThreshold少并且不需要map端的合并操作
   * 那么我们直接写入numPartitions个文件。并且在最后合并它们
   * 这可以避免序列化和反序列化
   * */
   new BypassMergeSortShuffleHandle[K, V](
     shuffleId, numMaps, dependency.asInstanceOf[ShuffleDependency[K, V, V]])
 } else if (SortShuffleManager.canUseSerializedShuffle(dependency)) {
   // Otherwise, try to buffer map outputs in a serialized form, since this is more efficient:
   new SerializedShuffleHandle[K, V](
     shuffleId, numMaps, dependency.asInstanceOf[ShuffleDependency[K, V, V]])
 } else {
   // Otherwise, buffer map outputs in a deserialized form:
   new BaseShuffleHandle(shuffleId, numMaps, dependency)
 }
}
// 判断是否使用ByPassMergeSort
// 使用条件:
// (1)不需要进行map端的聚合
// (2)partition数量小于spark.shuffle.sort.bypassMergeThreshold,默认是200
def shouldBypassMergeSort(conf: SparkConf, dep: ShuffleDependency[_, _, _]): Boolean = {
  // We cannot bypass sorting if we need to do map-side aggregation.
  if (dep.mapSideCombine) {
    false
  } else {
    val bypassMergeThreshold: Int = conf.getInt("spark.shuffle.sort.bypassMergeThreshold", 200)
    dep.partitioner.numPartitions <= bypassMergeThreshold
  }
}
// 使用unsafeShuffleWriter的条件
  /*
  * (1)序列化格式需要支持重定位
  * (2)不需要map端join
  * (3)partition数量大于某个阈值
  * */
def canUseSerializedShuffle(dependency: ShuffleDependency[_, _, _]): Boolean = {
  val shufId = dependency.shuffleId
  val numPartitions = dependency.partitioner.numPartitions
  if (!dependency.serializer.supportsRelocationOfSerializedObjects) {
    log.debug(s"Can't use serialized shuffle for shuffle $shufId because the serializer, " +
      s"${dependency.serializer.getClass.getName}, does not support object relocation")
    false
  } else if (dependency.mapSideCombine) {
    log.debug(s"Can't use serialized shuffle for shuffle $shufId because we need to do " +
      s"map-side aggregation")
    false
  } else if (numPartitions > MAX_SHUFFLE_OUTPUT_PARTITIONS_FOR_SERIALIZED_MODE) {
    log.debug(s"Can't use serialized shuffle for shuffle $shufId because it has more than " +
      s"$MAX_SHUFFLE_OUTPUT_PARTITIONS_FOR_SERIALIZED_MODE partitions")
    false
  } else {
    log.debug(s"Can use serialized shuffle for shuffle $shufId")
    true
  }
}

如果上面两个条件都不成立,那么使用最基本的SortShuffleWriter
handler和writer的对应情况:
BypassMergeSortShuffleHandle对应BypassMergeSortShuffleWriter
SerializedShuffleHandle对应UnsafeShuffleWriter
BaseShuffleHandle对应SortShuffleWriter
在接下来的博客中,将分别介绍这三种ShuffleWriter

本课题设计了一种利用Matlab平台开发的植物叶片健康状态识别方案,重点融合了色彩与纹理双重特征以实现对叶片病害的自动化判别。该系统构建了直观的图形操作界面,便于用户提交叶片影像并快速获得分析结论。Matlab作为具备高效数值计算与数据处理能力的工具,在图像分析与模式分类领域应用广泛,本项目正是借助其功能解决农业病害监测的实际问题。 在色彩特征分析方面,叶片影像的颜色分布常与其生理状态密切相关。通常,健康的叶片呈现绿色,而出现黄化、褐变等异常色彩往往指示病害或虫害的发生。Matlab提供了一系列图像处理函数,例如可通过色彩空间转换与直方图统计来量化颜色属性。通过计算各颜色通道的统计参数(如均值、标准差及主成分等),能够提取具有判别力的色彩特征,从而为不同病害类别的区分提供依据。 纹理特征则用于描述叶片表面的微观结构与形态变化,如病斑、皱缩或裂纹等。Matlab中的灰度共生矩阵计算函数可用于提取对比度、均匀性、相关性等纹理指标。此外,局部二值模式与Gabor滤波等方法也能从多尺度刻画纹理细节,进一步增强病害识别的鲁棒性。 系统的人机交互界面基于Matlab的图形用户界面开发环境实现。用户可通过该界面上传待检图像,系统将自动执行图像预处理、特征抽取与分类判断。采用的分类模型包括支持向量机、决策树等机器学习方法,通过对已标注样本的训练,模型能够依据新图像的特征向量预测其所属的病害类别。 此类课题设计有助于深化对Matlab编程、图像处理技术与模式识别原理的理解。通过完整实现从特征提取到分类决策的流程,学生能够将理论知识与实际应用相结合,提升解决复杂工程问题的能力。总体而言,该叶片病害检测系统涵盖了图像分析、特征融合、分类算法及界面开发等多个技术环节,为学习与掌握基于Matlab的智能检测技术提供了综合性实践案例。 资源来源于网络分享,仅用于学习交流使用,请勿用于商业,如有侵权请联系我删除!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值