Spark创建RDD

本文档演示如何在Spark中创建RDD,包括通过并行转化和外部文件转化的方法。使用`sc.parallelize`将数组转化为RDD,同时展示了如何自定义分片数。另外,`sc.textFile`用于从文件系统读取数据,支持多个文件、文件夹、压缩文件和通配符,并可指定分片数量。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

package com.wp

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

/**
  * Spark core  创建RDD
  */

object test0615 {
  def main(args: Array[String]) {
    val conf = new SparkConf().setAppName("RddCreate").setMaster("local");
    val sc = new SparkContext(conf);
    val data = Array(1,2,3,4,5,6,7,8,9);
    /**
      * 并行转化
      *sc.parallelize方法 =>数组中的每个元素变成RDD中的每一行
      */
    //1)使用默认分片数
    val rdd1: RDD[Int] = sc.parallelize(data);
    //2)自定义分片数,集群中的每个CPU一般对应运行2~4个分片
    val rdd2: RDD[Int] = sc.parallelize(data,3);
    /**
      * 外部文件转化
      * sc.textFile
      * 注意:该方法可以读取 多个文件、文件夹、压缩文件、通配符文件
      * 默认为每一个block创建一个分片,也可指定,但指定的分片数不能小于block数。
      */
    //1)使用默认分片数
    val rdd3 = sc.textFile("Input/data.txt");//当前目录下文件
    val rdd4 = sc.textFile("hdfs://hdfsnode1:8020/input/wc.java");
    //2)指定分片
    val rdd6 = sc.textFile("hdfs://hdfsnode1:8020/input/wc.java",6);
  }
}


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值