创建RDD的方式可分为四种:
1.从集合(内存)中创建
2.从外部存储(文件)中创建:本地/HDFS
3.从其它RDD创建,一个RDD运算完成后产生新的RDD
4.直接创建RDD(new)
import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object spark02_rdd_create { def main(args: Array[String]): Unit = { val sparkConf=new SparkConf().setMaster("local").setAppName("MakeRdd") val sc=new SparkContext(sparkConf) //TODO 从内存中创建RDD val seq=Seq[Int](1,2,3,4) //parallelize并行 val RDD1: RDD[Int] = sc.parallelize(seq) //makeRDD就是实现的RDD中的parallelize方法 val RDD2: RDD[Int] = sc.makeRDD(seq) RDD2.collect().foreach(println) //TODO 从文件中创建RDD val RDD3=sc.textFile("datas/1.txt") RDD3.collect().foreach(println) //textFile是字符串的形式,行来读取的 //wholeTextFiles是以文件为单位读取的,元组的形式(文件名,内容) val RDD4=sc.wholeTextFiles("datas") RDD4.collect().foreach(println) sc.stop() } }
wholeTextFiles的运行结果:
spark编程02——spark中RDD的创建
最新推荐文章于 2023-12-31 13:49:20 发布