package com.wp import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} /** * Spark core 创建RDD */ object test0615 { def main(args: Array[String]) { val conf = new SparkConf().setAppName("RddCreate").setMaster("local"); val sc = new SparkContext(conf); val data = Array(1,2,3,4,5,6,7,8,9); /** * 并行转化 *sc.parallelize方法 =>数组中的每个元素变成RDD中的每一行 */ //1)使用默认分片数 val rdd1: RDD[Int] = sc.parallelize(data); //2)自定义分片数,集群中的每个CPU一般对应运行2~4个分片 val rdd2: RDD[Int] = sc.parallelize(data,3); /** * 外部文件转化 * sc.textFile * 注意:该方法可以读取 多个文件、文件夹、压缩文件、通配符文件 * 默认为每一个block创建一个分片,也可指定,但指定的分片数不能小于block数。 */ //1)使用默认分片数 val rdd3 = sc.textFile("Input/data.txt");//当前目录下文件 val rdd4 = sc.textFile("hdfs://hdfsnode1:8020/input/wc.java"); //2)指定分片 val rdd6 = sc.textFile("hdfs://hdfsnode1:8020/input/wc.java",6); } }