Spark RDD算子(一) parallelize、textFile

最新推荐文章于 2024-11-08 12:00:23 发布

原创最新推荐文章于 2024-11-08 12:00:23 发布 · 2.8k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#spark #spark算子

spark 专栏收录该内容

23 篇文章

订阅专栏

本文介绍了Spark中两种创建RDD的方法：parallelize和textFile。parallelize允许将现有集合转换为RDD，常用于学习和测试，提供Scala和Java版本。textFile则用于从外部读取数据创建RDD，支持分区、模糊匹配和读取多个路径。

一、parallelize

调用SparkContext 的 parallelize()，将一个存在的集合，变成一个RDD，这种方式试用于学习spark和做一些spark的测试

scala版本
scala的parallelize有两个参数，第一个是一个Seq集合，第二个是分区数，如果没有则会是默认分区数
scala版本可以选择makeRDD替换parallelize，java版本则没有

val rdd = sc.parallelize(List("A","B","C"))
val rdd1 = sc.makeRDD(List("A","B","C"))

Java版本
java版本的参数则是一个List集合和分区数

JavaRDD<Tuple2<Integer,String>> rdd = sc.parallelize(Arrays.asList(
new Tuple2<>(1,"A"),
new Tuple2<>(2,"B"),
new Tuple2<>(3,"C")
));

二、textFile

从外部读取数据创建RDD，textFile支持分区，支持模糊匹配，可以读取多个路径，路径之间使用逗号隔开

scala版本

val rdd = sc.textFile("D:/text/*.txt,E:/text/sample.txt",2)

java版本

JavaRDD<String> rdd = sc.textFile("文件路径");

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

习惯de味道

关注关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

spark算子-parallelize算子

m0_37817767的博客

07-13

1274

spark算子-parallelize算子

spark快速大数据分析笔记-2

Seeker-Wu的专栏

01-21

1114

Spark快速大数据分析第三章-笔记本章介绍Spark对数据的核心抽象--弹性分布式数据集RDD，其实就是分布式的元素集合。在Spark中，对数据的所有操作不外呼创建RDD，转化已有RDD以及调用RDD操作进行求值。Spark会自动将RDD中的数据分发到集群上，并将操作并行化执行。 RDD基础 Spark中的RDD就是一个不可变的分布式对象集合。每个RDD都被分为多个分区，这些分区运行在集

参与评论您还未登录，请先登录后发表或查看评论

Spark 中的 RDD 分区的设定规则与高阶函数、Lambda 表达式详解

最新发布

天冬忘忧的博客

11-08

1570

Apache Spark 是一个强大的开源分布式计算框架。它提供了丰富的功能和灵活的编程接口，其中弹性分布式数据集（RDD）是其核心概念之一。RDD 的分区设定规则对于数据处理的性能和资源利用至关重要，同时，高阶函数和 Lambda 表达式的运用能让我们在 Spark 编程中更加简洁高效地处理数据。本文将深入探讨 RDD 分区的设定规则以及高阶函数和 Lambda 表达式的相关知识。

spark中rdd分区源码分析——parallelize()创建rdd时的分区分析

youmianzhou的博客

11-15

1998

spark很让人迷惑的问题就是分区了。 1.spark可以分成两代，第一代是rdd，主要是用来分析日志文件比较多，rdd里面就涉及到了分区的概念，spark是怎么去执行一个程序的。到了第二代，sparksql，已经没有需要个人自己去分区了，更多是操纵表，写sql。 2.spark分区原则： (1)rdd分区的原则是尽量利用集群中的cpu数量，比如一个wordcount任务，一开始根据整个集群中cpu的个数，分成的份数尽量等于cpu核数，就可以充分利用cpu的资源。 (2)rdd在有两种创建方法，分别是par

Spark RDD算子（一） parallelize，makeRDD，textFile，filter，map，flatMap

jiandanbuguo的博客

11-09

1336

parallelize 通过调用SparkContext的parallelize方法，在一个已经存在的Scala集合上创建的（一个Seq对象）。集合的对象将会被拷贝，创建出一个可以被并行操作的分布式数据集 scala版本 def parallelize[T](seq: Seq[T],numSlices: Int)(implicit arg0: ClassTag[T]): RDD[T] 第一个参数是一个seq集合第二个参数是分区数，可省略返回值是一个RDD scala> sc.paralleli

Spark RDD算子大全(Java、Scala双版本)

菜鸟也学大数据的博客

11-04

850

一.Spark RDD概念概述 RDD是将数据项拆分为多个分区的集合，存储在集群的工作节点上的内存中，并执行指定操作 RDD是用于数据转换的接口 RDD指向了存储在HDFS、Cassandra、HBase等、或缓存（内存、内存+磁盘、仅磁盘等），或在故障或缓存收回时重新计算其他RDD分区中的数据特性分布式数据集 RDD是只读的、分区记录的集合，每个分区分布在集群的不同节点上 RDD并不存储真正的数据，只是对数据和操作的描述弹性 RDD默认存放在内存中，当内存不足，Spark自动将RDD

Spark常用RDD算子：transformation转换算子以及action触发算子

m0_70882914的博客

10-10

2092

transformation 转换算子对RDD数据进行转化得到新的RDD，定义了一个线程任务。常见：map、filter、flatMap、reduceByKey、groupByKey、sortByKeyaction 执行算子触发计算任务，让计算任务进行执行，得到结果。触发线程执行的。常见：foreach、first、count、reduce、saveAsTextFile、collect、take。

大数据——Spark RDD常用算子总结

Vicky_Tang

07-28

1万+

Spark的核心是建立在同一的抽象弹性分布式数据集（Resilient Distributed Datasets，RDD）之上的，这使得Spark的各个组件可以无缝的进行集成，能够在同一个应用程序中完成大数据处理 1.RDD基本概念 RDD是spark提供的最重要的抽象概念，它是一种有容错机制的特殊数据集合，可以分布在集群的节点上，以函数式操作集合的方式进行各种并行操作可以将RDD理解为一个分布式对象集合，本质上是一个只读的分区记录集合。每个RDD可以分成多个分区，每个分区就是一个数据集片段。一个R

Spark之RDD,常用的分析算子大全分组聚合,排序,重分区,连接合并等算子

qq_55006020的博客

10-08

1934

Spark之RDD,常用的分析算子大全分组聚合,排序,重分区,连接合并等算子

SparkContext的parallelize的参数

caoli98033的专栏

12-06

2万+

在一个Spark程序的开始部分，有好多是用sparkContext的parallelize制作RDD的，是ParallelCollectionRDD，创建一个并行集合。例如sc.parallelize(0 until numMappers, numMappers) 创建并行集合的一个重要参数，是slices的数目（例子中是numMappers），它指定了将数据集切分为几份。在集群模式中，

Spark 默认parallelize问题

qq_45887821的博客

04-21

716

parallelize spark中有并发的概念, 当使用parallelize方法, 或者makeRDD方法创建一个RDD的时候, 可以选择传入一个默认的并行度, 来提高效率. 当不传入第二个参数的时候, 默认是几个分区呢? def makeRDD[T: ClassTag]( seq: Seq[T], numSlices: Int = defaultParallelism): RDD[T] = withScope { parallelize(seq, numSlices)

大数据——Spark RDD算子（一）parallelize、makeRDD、textFile

蜂蜜柚子加苦茶

11-05

894

大数据——Spark RDD算子（一）parallelize、makeRDD、textFileParallelizeScala版本Java版本 Parallelize Scala版本 def parallelize[T](seq: Seq[T], numSlices: Int = defaultParallelism)(implicit arg0: ClassTag[T]): RDD[T] 第一个参数是一个Seq集合第二个参数是分区数返回的是RDD[T] scala> sc.parallel

Spark：RDD数据分区数量总结(并行化集合parallelize与外部数据集textFile)

石榴姐yyds

04-21

1938

目录 1、创建RDD 2、RDD分区有关操作2.1、查看分区方式 2.2、查看分区数 2.3、查看不同分区内的数据 2.4、重新分区 2.5、设置分区数 3、分区数 3.1、并行化集合 3.2、外部数据集textFile 4、新版API中FileInputFormat的分片 1、创建RDD Spark提供了两种方式创建RDD：读取外部数据集，如SparkContext.textFile 在驱动器程序中对一个集合进行并行化，如SparkContext.para...

RDD应用API---parallelize、Array、reduce、distinct、filter

新博客：https://aping-dev.com/

11-25

2036

图片来源：梁洪亮老师的课件代码来源：Spark MLlib机器学习实践王晓华parallelizedef parallelize[T: ClassTag](seq:Seq[T], numSlices:Int=defaultParallelism):RDD[T]第一个参数是数据，默认参数为1，表示将数据值分布在多少个数据节点中存放import org.apache.spark.{SparkC

spark使用parallelize方法创建RDD