Spark基础05-map和mapValue

最新推荐文章于 2025-01-20 16:57:42 发布

Linzx的学习笔记

最新推荐文章于 2025-01-20 16:57:42 发布

阅读量1.9k

点赞数 1

分类专栏： spark 大数据基础文章标签：大数据

本文链接：https://blog.youkuaiyun.com/weixin_40253547/article/details/117013705

版权

spark 同时被 2 个专栏收录

12 篇文章

订阅专栏

大数据基础

10 篇文章

订阅专栏

0、前言

真实面试题：

使用了reduceByKey()和groupByKey()等xxxByKey()算子一定会产生shuffle吗？
Spark 如何优化或者减少shuffle？

1、map

1.1、官方的解释

输入函数针对源RDD所有元素进行操作，并且返回一个新的RDD

1.2、代码示例

val dataKv: RDD[String] = sc.parallelize(List(
  "hello world",
  "hello spark",
  "hello world",
  "hello hadoop",
  "hello world",
  "hello world"
))

val words: RDD[String] = dataKv.flatMap(_.split(" "))
val kv: RDD[(String, Int)] = words.map((_, 1))
val res: RDD[(String, Int)] = kv.reduceByKey(_ + _)
/**
  * 关注这一步
  */
val res1: RDD[(String, Int)] = res.map(x => (x._1, x._2 * 10))
val result: RDD[(String, Iterable[Int])] = res1.groupByKey()
result.foreach(println)

while (true) {
}

1.3、job运行截图

map-DAG

1.4、小结

从上面截图可知，这里产生了两次shuffle，分别是因为使用了reduceByKey()和groupByKey()方法产生的

2、mapValue

2.1、官方的解释

输入函数针对源RDD中的Value操作，不改变键值
返回原RDD，保留原分区不变

2.2、代码示例

val dataKv: RDD[String] = sc.parallelize(List(
  "hello world",
  "hello spark",
  "hello world",
  "hello hadoop",
  "hello world",
  "hello world"
))

val words: RDD[String] = dataKv.flatMap(_.split(" "))
val kv: RDD[(String, Int)] = words.map((_, 1))
val res: RDD[(String, Int)] = kv.reduceByKey(_ + _)
/**
  * 关注这一步：上文使用的是 map(x => (x._1, x._2 * 10))
  */
val res1: RDD[(String, Int)] = res.mapValues(x => x * 10)
val result: RDD[(String, Iterable[Int])] = res1.groupByKey()
result.foreach(println)

while (true) {
}

2.3、job运行截图

mapValue-DAG

2.4、小结

从上面截图可知，这里产生了一次shuffle，此处代码与上文不同的是使用了mapValue，而不是map
代码块中使用了reduceByKey()和groupByKey()，却只产生一次shuffle，这里先给出结论使用reduceByKey()等xxxByKey()算子不一定会产生shuffle
产生一次shuffle的原因：
- 第一次使用reduceByKey()，已经将RDD按照Key相应关系进行排列
- mapValue不会修改RDD中的Key的对应关系