一、parallelize
调用SparkContext 的 parallelize(),将一个存在的集合,变成一个RDD,这种方式试用于学习spark和做一些spark的测试
scala版本
scala的parallelize有两个参数,第一个是一个Seq集合,第二个是分区数,如果没有则会是默认分区数
scala版本可以选择makeRDD替换parallelize,java版本则没有
val rdd = sc.parallelize(List("A","B","C"))
val rdd1 = sc.makeRDD(List("A","B","C"))
Java版本
java版本的参数则是一个List集合和分区数
JavaRDD<Tuple2<Integer,String>> rdd = sc.parallelize(Arrays.asList(
new Tuple2<>(1,"A"),
new Tuple2<>(2,"B"),
new Tuple2<>(3,"C")
));
二、textFile
从外部读取数据创建RDD,textFile支持分区,支持模糊匹配,可以读取多个路径,路径之间使用逗号隔开
scala版本
val rdd = sc.textFile("D:/text/*.txt,E:/text/sample.txt",2)
java版本
JavaRDD<String> rdd = sc.textFile("文件路径");
本文介绍了Spark中两种创建RDD的方法:parallelize和textFile。parallelize允许将现有集合转换为RDD,常用于学习和测试,提供Scala和Java版本。textFile则用于从外部读取数据创建RDD,支持分区、模糊匹配和读取多个路径。
1273

被折叠的 条评论
为什么被折叠?



