Spark(2)-基础tranform算子(一)

最新推荐文章于 2025-03-09 17:00:33 发布

maplea2012

最新推荐文章于 2025-03-09 17:00:33 发布

阅读量520

点赞数 9

分类专栏： Spark 文章标签： spark 大数据分布式

本文链接：https://blog.youkuaiyun.com/weixin_37901366/article/details/136438083

版权

本文详细介绍了ApacheSpark中的各种基本算子，包括map、flatMap、filter、mapPartitions、mapPartitionsWithIndex等，以及它们在处理RDD中的应用，同时提供了相应的代码示例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、算子列表

编号	名称
1	map算子
2	flatMap算子
3	filter算子
4	mapPartitions算子
5	mapPartitionsWithIndex算子
6	keys算子
7	values算子
8	mapValues算子
9	flatMaplValues算子
10	union算子
11	reducedByKey算子
12	combineByKey算子
13	groupByKey算子
14	foldByKey算子
15	aggregateByKey算子
16	ShuffledRDD算子
17	distinct算子
18	partitionBy算子

二、代码示例

package sparkCore


import org.apache.hadoop.mapreduce.task.reduce.Shuffle
import org.apache.log4j.{Level, Logger}
import org.apache.spark.rdd.{RDD, ShuffledRDD}
import org.apache.spark.rdd.RDD.rddToPairRDDFunctions
import org.apache.spark.{Aggregator, HashPartitioner, SparkConf, SparkContext, TaskContext}

/**
 * spark基本算子
 */


object basi_transform_02 {
  def main(args: Array[String]): Unit = {


    val conf: SparkConf = new SparkConf().setAppName("transform").setMaster("local[*]")
    val sc: SparkContext = new SparkContext(conf)

    sc.setLogLevel