Spark RDD API详解

最新推荐文章于 2019-10-18 15:37:01 发布

原创最新推荐文章于 2019-10-18 15:37:01 发布 · 1.1k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#spark #RDD

Spark 专栏收录该内容

8 篇文章

订阅专栏

本文介绍了Spark中核心数据结构RDD的基本概念与使用方法，包括RDD的创建方式、分区存储特性及其基本操作如map等。

1. RDD简单介绍

RDD是Spark中的抽象数据结构类型，任何数据在Spark中都被表示为RDD。从编程的角度来看，RDD可以简单看成是一个数组。和普通数组的区别是，RDD中的数据是分区存储的，这样不同分区的数据就可以分布在不同的机器上，同时可以被并行处理。因此，Spark应用程序所做的无非是把需要处理的数据转换为RDD，然后对RDD进行一系列的变换和操作从而得到结果。本文为第一部分，将介绍Spark RDD中与Map和Reduce相关的API中。

2. RDD的创建

RDD可以从普通数组创建出来，也可以从文件系统或者HDFS中的文件创建出来。

从普通数组创建RDD，里面包含了1到9这9个数字，它们分别在3个分区中

scala> val a = sc.parallelize(1 to 9, 3)
a: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[1] at parallelize at <console>:12

读取文件README.md来创建RDD，文件中的每一行就是RDD中的一个元素

scala> val b = sc.textFile("README.md")
b: org.apache.spark.rdd.RDD[String] = MappedRDD[3] at textFile at <console>:12

3. map

map是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。 任何原RDD中的元素在新RDD中都有且只有一个元素与之对应。

scala> val a = sc.parallelize(1 to 9, 3)
scala> val b = a.map(x => x*2)
scala> a.collect
res10: Array[Int] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9)
scala> b.collect
res11: Array[Int] = Array(2, 4, 6, 8, 10, 12, 14, 16, 18)