spark--transform算子--parallelized

最新推荐文章于 2022-10-26 10:59:06 发布

原创最新推荐文章于 2022-10-26 10:59:06 发布 · 379 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#spark #parallelized

spark 专栏收录该内容

30 篇文章

订阅专栏

本文介绍如何使用Apache Spark的并行化操作parallelize创建弹性分布式数据集（RDD）。通过一个简单的整数数组示例展示了如何将其转换为RDD，并遍历打印每个元素。

import org.apache.spark.{SparkConf, SparkContext}

/**
  * Created by liupeng on 2017/6/15.
  */
object T_parallelized {

  System.setProperty("hadoop.home.dir","F:\\hadoop-2.6.5")

  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("parallelized_test").setMaster("local")
    val sc = new SparkContext(conf)

    //parallelize 操作会将集合并行化为RDD
    val data = Array(1, 2, 3, 4, 5)
    val distDate = sc.parallelize(data)
    distDate.foreach(println)
  }
}

运行结果：

1
2
3
4
5