Spark---创建RDD的三种方式
通过本地集合创建RDD
def rddCreationLocal(): Unit = {
val seq1 = Seq("hello","world","HI")
val seq2 = Seq(1,2,3)
//可以不指定分区数
val rdd1: RDD[String] = sc.parallelize(seq1,2)
//要指定分区数
val rdd2: RDD[Int] = sc.makeRDD(Seq(1,2,3,4),2)
}
通过外部数据创建RDD
//外部数据(文件)创建RDD
def rddCreationFiles(): Unit = {
val rdd1 = sc.textFile("file_path")
//1、textFile传入的是一个路径
//2、分区是由HDFS中的block决定的
}
通过RDD衍生新的RDD
//RDD衍生RDD
def rddCreateFromRDD(): Unit = {
val rdd1 = sc.parallelize(Seq(1, 2, 3))
//通过RDD执行算子操作会产生RDD
val rdd2 = rdd1.map(item => (item, 1))
}
本文介绍了Apache Spark中创建RDD的三种主要方式:通过本地集合、外部数据文件以及从现有RDD衍生。在本地集合创建中,展示了如何使用`parallelize`和`makeRDD`函数指定分区数。通过外部数据文件创建RDD时,提到了`textFile`方法及其默认分区依据。最后,讨论了通过RDD转换算子如`map`来衍生新的RDD。这些基础知识对于理解和使用Spark进行大数据处理至关重要。
2724

被折叠的 条评论
为什么被折叠?



