spark--actions算子--collect

最新推荐文章于 2025-05-08 01:00:00 发布

原创最新推荐文章于 2025-05-08 01:00:00 发布 · 395 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#spark #actions #collect

spark 专栏收录该内容

30 篇文章

订阅专栏

本文介绍了一个使用Apache Spark处理数据的简单示例。通过创建并行集合parallelize，将List中的整数翻倍，并使用collect方法收集结果。最终，将RDD中的元素拉取回Driver端并打印出结果。

import org.apache.spark.{SparkConf, SparkContext}

/**
  * Created by liupeng on 2017/6/16.
  */
object A_collect {
  System.setProperty("hadoop.home.dir","F:\\hadoop-2.6.5")

  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("collect_test").setMaster("local")
    val sc = new SparkContext(conf)
    //准备一下数据
    val nameList : List[Int] = List(1,2,3,4,5)
    val numbers = sc.parallelize(nameList)
      .map(_ * 2)
    //将RDD序列化到driver端
    //建议用foreach action操作；collect在远程集群上遍历RDD的元素，将分布式的在远程集群里面的数据拉取到本地，如果数据量大，会走大量的网络传输，甚至有可能OOM内存溢出
    val doubleNumbers : Array[Int] = numbers.collect()
    for (num <- doubleNumbers)
      {
        println(num)
      }
  }
}

运行结果：

2
4
6
8
10