Spark---创建RDD的三种方式

最新推荐文章于 2024-10-19 14:23:25 发布

原创最新推荐文章于 2024-10-19 14:23:25 发布 · 2.5k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#spark #java #hadoop #大数据

Spark 专栏收录该内容

29 篇文章

订阅专栏

本文介绍了Apache Spark中创建RDD的三种主要方式：通过本地集合、外部数据文件以及从现有RDD衍生。在本地集合创建中，展示了如何使用`parallelize`和`makeRDD`函数指定分区数。通过外部数据文件创建RDD时，提到了`textFile`方法及其默认分区依据。最后，讨论了通过RDD转换算子如`map`来衍生新的RDD。这些基础知识对于理解和使用Spark进行大数据处理至关重要。

Spark---创建RDD的三种方式

通过本地集合创建RDD
通过外部数据创建RDD
通过RDD衍生新的RDD

通过本地集合创建RDD

def rddCreationLocal(): Unit = {
  val seq1 = Seq("hello","world","HI")
  val seq2 = Seq(1,2,3)
  //可以不指定分区数
  val rdd1: RDD[String] = sc.parallelize(seq1,2)
  //要指定分区数
  val rdd2: RDD[Int] = sc.makeRDD(Seq(1,2,3,4),2)
}

通过外部数据创建RDD

//外部数据(文件)创建RDD
def rddCreationFiles(): Unit = {
  val rdd1 = sc.textFile("file_path")
  //1、textFile传入的是一个路径
  //2、分区是由HDFS中的block决定的
}

通过RDD衍生新的RDD

//RDD衍生RDD
def rddCreateFromRDD(): Unit = {
  val rdd1 = sc.parallelize(Seq(1, 2, 3))
  //通过RDD执行算子操作会产生RDD
  val rdd2 = rdd1.map(item => (item, 1))
}