spark算子map reduce小案例

最新推荐文章于 2025-05-13 14:30:51 发布

原创

最新推荐文章于 2025-05-13 14:30:51 发布 · 4.2k 阅读

CC 4.0 BY-SA版权

文章标签：

本文介绍了RDD的两种操作方式——转换和行动操作，详细讲解了map和reduce的用法，并提供了完整的mapAndReduce示例代码。通过实例展示了如何使用map和reduce计算平均值，鼓励读者实践和探索更多可能的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.RDD两种操作方式介绍

转换操作（Transformation）使用了链式调用的设计模式，对一个RDD计算之后，转换为另一个RDD，然后这个RDD又可以经过转换，转换为另一个RDD。这个过程是分布式的，它必须等待行动操作（Action）完成后，才真正的触发Spark提交作业，开始执行计算。

行动操作Action是和转换操作相对应的一种操作，在Spark程序运行中，每调用一次Action操作，都会触发一次Spark的作业提交，并返回相应的结果。

map函数定义如下：

def
map[U](f: (T) ⇒ U)(implicit arg0: ClassTag[U]): RDD[U]
 Permalink
Return a new RDD by applying a function to all elements of this RDD.

map方法将原来的RDD中类型为T的元素，通过用户自定义的函数f按照一对一地映射为U类型的元素。函数f可以是简单的加减，也可以是复杂的将一元组转换为二元组等等。

 val rdd1 = sc.parallelize(List(1,2,3,4))
 val maprdd1 = rdd1.map(x => x+1)

结果为：2 3 4 5 （当然结果应该是按列列出，看完整代码如下）

行动操作reduce()它接收一个函数作为参数，这个函数要操作两个 RDD 的元素类型的数据并返

200万优质内容无限畅学