Spark创建RDD

最新推荐文章于 2024-08-15 09:20:19 发布

原创最新推荐文章于 2024-08-15 09:20:19 发布 · 452 阅读

0 ·

CC 4.0 BY-SA版权

Spark Core 专栏收录该内容

2 篇文章

订阅专栏

本文档演示如何在Spark中创建RDD，包括通过并行转化和外部文件转化的方法。使用`sc.parallelize`将数组转化为RDD，同时展示了如何自定义分片数。另外，`sc.textFile`用于从文件系统读取数据，支持多个文件、文件夹、压缩文件和通配符，并可指定分片数量。

package com.wp

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

/**
  * Spark core  创建RDD
  */

object test0615 {
  def main(args: Array[String]) {
    val conf = new SparkConf().setAppName("RddCreate").setMaster("local");
    val sc = new SparkContext(conf);
    val data = Array(1,2,3,4,5,6,7,8,9);
    /**
      * 并行转化
      *sc.parallelize方法 =>数组中的每个元素变成RDD中的每一行
      */
    //1)使用默认分片数
    val rdd1: RDD[Int] = sc.parallelize(data);
    //2)自定义分片数，集群中的每个CPU一般对应运行2~4个分片
    val rdd2: RDD[Int] = sc.parallelize(data,3);
    /**
      * 外部文件转化
      * sc.textFile
      * 注意：该方法可以读取 多个文件、文件夹、压缩文件、通配符文件
      * 默认为每一个block创建一个分片，也可指定，但指定的分片数不能小于block数。
      */
    //1）使用默认分片数
    val rdd3 = sc.textFile("Input/data.txt");//当前目录下文件
    val rdd4 = sc.textFile("hdfs://hdfsnode1:8020/input/wc.java");
    //2)指定分片
    val rdd6 = sc.textFile("hdfs://hdfsnode1:8020/input/wc.java",6);
  }
}