(一)Spark常用算子：map，mapPartition，mapPartitionIndex，flatMap，filter

for your wish

于 2021-11-18 18:05:21 发布

阅读量1.2k

点赞数

CC 4.0 BY-SA版权

文章标签： spark

本文链接：https://blog.youkuaiyun.com/someInNeed/article/details/121406796

Spark 专栏收录该内容

41 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文详细介绍了Spark中的几个关键算子，包括map在元素级别进行数据转换，mapPartitions在分区级别提高效率，mapPartitionsWithIndex提供了分区索引以便于业务逻辑，以及flatMap用于一对多映射操作。同时，文章通过实例解释了filter算子如何根据判定函数过滤RDD元素。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

首先来看下spark的wordcount的top5

package org.example.spark

import java.security.MessageDigest

import org.apache.spark.{SparkConf, SparkContext}

object WordCount {
  import org.apache.spark.rdd.RDD
  def main(args: Array[String]): Unit = {

    // 这里的下划线"_"是占位符，代表数据文件的根目录
    val file: String = "D:\\testCode\\words.txt"
    // 读取文件内容
    //设置spark的配置文件信息
    val sparkConf: SparkConf = new SparkConf().setAppName("WordCount")
        .setMaster("local[2]")
    //构建sparkcontext上下文对象，它是程序的入口,所有计算的源头
    val sc: SparkContext = new SparkContext(sparkConf)
    //读取文件
    val lineRDD: RDD[String] = sc.textFile(file)
    // 以行为单位做分词val
    val words: RDD[String] = lineRDD.flatMap(line => line.split(" "))
    // 过滤掉空字符串
    val cleanWordRDD: RDD[String] = word